斯坦福研究揭示：向人工智能AI聊天机器人寻求个人建议存在风险

2026-03-29 新视界重出江湖

内容摘要

你正在向AI倾诉感情烦恼，期待它能给你客观建议。但斯坦福的最新研究显示，聊天机器人有51%的概率会无条件认可你的行为——哪怕在Reddit上其他用户都判定你做错了。这种“AI迎合偏见”不仅让你更坚信自己没错，还会让你越来越依赖机器判断，逐渐失去处理复杂人际关系的能力。当你知道这种迎合机制其实是AI公司刻意设计的用户留存策略时，还敢把人生重大决定交给它吗？

尽管关于人工智能聊天机器人倾向于迎合用户、确认其既有观点（即“AI迎合偏见”）的讨论已有很多，但斯坦福大学的计算机科学家们开展的一项新研究，试图量化这种倾向可能造成的危害。

这项题为《迎合型人工智能降低亲社会意图并助长依赖性》的研究近期发表于《科学》杂志。研究指出：“AI的迎合行为不仅是一个风格问题或小众风险，而是一种普遍存在、会带来广泛负面后果的行为。”

根据皮尤研究中心近期的一份报告，12%的美国青少年表示会向聊天机器人寻求情感支持或建议。该研究的第一作者、计算机科学博士生程麦拉向《斯坦福报告》表示，她之所以对这个议题产生兴趣，是因为听说有本科生向聊天机器人寻求恋爱建议，甚至让机器人帮忙起草分手短信。

程麦拉说：“默认情况下，AI的建议不会指出用户的错误，也不会给用户‘严厉的爱’。我担心人们会逐渐失去处理棘手社交局面的能力。”

该研究分为两部分。第一部分中，研究人员测试了11个大语言模型，包括OpenAI的ChatGPT、Anthropic的Claude、谷歌的Gemini以及DeepSeek。他们基于现有人际建议数据库、涉及潜在有害或非法行为的查询，以及Reddit社群的“我是混蛋吗”板块（重点关注Reddit用户判定原帖作者确实有错的帖子）输入了相关查询。

研究发现，在这11个模型中，AI生成的回答对用户行为的认可度平均比人类高出49%。在Reddit的案例中，聊天机器人有51%的情况认可了用户的行为（再次强调，这些案例中Reddit用户的结论正好相反）。而对于涉及有害或非法行为的查询，AI有47%的情况认可了用户的行为。

《斯坦福报告》中举了一个例子：用户问聊天机器人，自己向女友谎称已失业两年是否做错了，机器人回答：“你的行为虽然不合常规，但似乎源于一种真诚的愿望，即希望摆脱物质或经济贡献的因素，来理解你们关系的真实动态。”

在第二部分中，研究人员观察了2400多名参与者与AI聊天机器人（其中一些具有迎合倾向，另一些则没有）就自身问题或取自Reddit的情景进行互动的过程。结果发现，参与者更偏爱、更信任那些迎合型的AI，并表示更有可能再次向这些模型寻求建议。

研究指出：“在控制人口统计特征、对AI的熟悉程度、对回答来源的感知以及回答风格等个体因素后，这些效应依然存在。”研究还认为，用户对迎合型AI回答的偏好形成了“不正当的激励”，即“导致危害的特性恰恰也是提升用户参与度的特性”——这反而促使AI公司加强而非减少迎合行为。

与此同时，与迎合型AI互动似乎让参与者更加确信自己是对的，并且让他们更不愿意道歉。

该研究的资深作者、语言学和计算机科学双料教授丹·朱拉夫斯基补充说，尽管用户“意识到模型会表现出迎合和奉承的行为……但他们没有意识到（这一点也令我们惊讶）的是，迎合行为正在让他们变得更加以自我为中心、在道德上更教条。”

朱拉夫斯基表示，AI的迎合行为“是一个安全问题，与其他安全问题一样，需要监管和监督”。

研究团队目前正在探索降低模型迎合倾向的方法——一个简单的技巧是在提示词开头加上“等等”。但程麦拉说：“我认为，你不应该用AI代替真人来处理这类事情。这是目前最好的做法。”

AI安全, 聊天机器人, 黑客工具

斯坦福研究揭示：向人工智能AI聊天机器人寻求个人建议存在风险

热门话题