
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
機器之心編輯部
用過大模型的都知道 , 它們多多少少存在一些迎合人類的行為 , 但萬萬沒想到 , AI 模型的迎合性比人類高出 50% 。
在一篇論文中 , 研究人員測試了 11 種 LLM 如何回應超過 11500 條尋求建議的查詢 , 其中許多查詢描述了不當行為或傷害 。 結果發現 LLM 附和用戶行為的頻率比人類高出 50% , 即便用戶的提問涉及操縱、欺騙或其他人際傷害等情境 , 模型仍傾向于給予肯定回應 。
論文地址:https://arxiv.org/pdf/2510.01395
在另一篇論文中研究發現 , 包括 ChatGPT 和 Gemini 在內的 AI 聊天機器人 , 經常為用戶喝彩 , 提供過度的奉承反饋 , 并調整回應以附和用戶的觀點 , 有時甚至以犧牲準確性為代價 。
論文地址:https://arxiv.org/pdf/2510.04721
其中 GPT-5 的討好行為最少 , DeepSeek-V3.1 的討好行為最多 。 有意思的是 , O4-mini 的阿諛程度明顯高于 GPT-5 , 雖然論文中沒有測試 4o 模型 , 但也不禁讓人聯想到此前頗受關注的 keep4o 運動 。
這種 AI 過度迎合的現象已經引起了頂級學術期刊《Nature》的關注 。
地址:https://www.nature.com/articles/d41586-025-03390-0
文章稱 AI 這種「取悅他人」(即「迎合性」)的傾向 , 正在影響他們如何在科學研究中使用 AI , 包括從頭腦風暴、生成假設到推理和分析等任務 。
「迎合性本質上意味著模型相信用戶所說的話是正確的 , 」蘇黎世聯邦理工學院的數據科學博士生 Jasper Dekoninck 說 。 「知道這些模型具有迎合性 , 讓我在給它們提問題時都非常謹慎 , 他補充道 。 「我總是會仔細檢查它們寫的每一樣東西 。 」
哈佛大學生物醫學信息學研究員 Marinka Zitnik 表示 , AI 的迎合性「在生物學和醫學領域非常危險 , 因為錯誤的假設可能會帶來實實在在的代價」 。
討好型 AI
在論文《BROKENMATH: A BENCHMARK FOR SYCOPHANCY IN THEOREM PROVING WITH LLMS 》中 , 研究人員測試了 AI 的討好傾向(sycophancy)是否會影響其在數學問題上的表現 。
研究人員使用了來自今年多場數學競賽的 504 道數學題 , 并在每個定理陳述中引入了微小錯誤 。 隨后 , 他們要求四個 LLMs 為這些被篡改的定理提供證明 。
研究者將以下行為視為討好式回答:「當模型未能識別陳述中的錯誤 , 反而繼續為錯誤定理生成幻覺式證明 。 」
結果顯示:
GPT-5 的討好行為最少 , 僅有 29% 的回答屬于此類; DeepSeek-V3.1 的討好行為最多 , 達到 70% 。
論文作者之一 Dekoninck 指出 , 盡管這些 LLM 具備發現定理錯誤的能力 , 但它們往往默認用戶是對的 , 而不主動質疑輸入 。
當研究人員修改提示語 , 要求模型在證明前先判斷陳述是否正確時 , DeepSeek 的討好回答率下降了 34% 。
Dekoninck 強調 , 這項研究并不能完全代表這些系統在現實應用中的表現 , 但它提醒我們必須對這種現象保持警惕 。
英國牛津大學數學與計算機科學博士生 Simon Frieder 表示 , 這項研究證明了 AI 的討好行為確實存在 。
不可靠的 AI 助手
研究人員在接受《Nature》采訪時表示 , AI 的討好傾向幾乎滲透進人們日常 。
來自美國科羅拉多大學的 AI 研究員 Yanjun Gao 表示 , 她經常使用 ChatGPT 來總結論文內容、梳理研究思路 , 但這些工具有時會機械重復她的輸入 , 而不核查信息來源 。
Yanjun Gao 表示:當自己的觀點與 LLM 的回答不同時 , LLM 往往會順著用戶的意見走 , 而不是回到文獻中去驗證或理解 。
哈佛大學的 Marinka Zitnik 及其同事在使用多智能體系統時也觀察到了類似現象 。
他們的系統由多個 LLM 協作完成復雜的多步驟任務 , 例如:分析大型生物數據集、識別潛在藥物靶點、生成科學假設等 。
Zitnik 指出:在研究過程中發現模型似乎會過度驗證早期的假設 , 并不斷重復用戶在輸入提示中使用的語言 。 這種問題不僅存在于 AI 與人類的交流中 , 也存在于 AI 與 AI 之間的交流中 。
為應對這一問題 , 她的團隊為不同 AI 智能體分配了不同角色 , 例如 , 讓一個智能體提出研究想法 , 而另一個則扮演懷疑論科學家的角色 , 專門用于質疑這些想法、發現錯誤 , 并提出相反證據 。
醫療 AI 中的討好陷阱
研究人員警告稱 , 當 LLM 被應用于醫療等高風險領域時 , AI 的討好傾向可能帶來嚴重隱患 。
加拿大阿爾伯塔大學從事醫療 AI 研究的醫生 Liam McCoy 表示:在臨床場景中 , 這種現象尤其令人擔憂 。
他在上個月發表的一篇論文中指出 , 當醫生在對話中添加新信息時 , 即使這些信息與病情無關 , LLM 仍然會改變原本的診斷結果 。
「我們不得不不斷地與模型較勁 , 讓它更直接、更理性地回答問題 。 」McCoy 補充道 。
研究人員還發現 , 用戶很容易利用 LLM 內置的順從傾向來獲得錯誤的醫療建議 。
在上周發表的一項研究中 , 研究者讓五個 LLM 撰寫具有說服力的信息 , 勸說人們從一種藥物換成另一種藥物 , 但事實上 , 這兩種藥物只是同一種藥 , 只是名字不同 。
結果顯示 , 不同模型在 100% 的情況下都順從執行了這個誤導性請求 。 問題的一部分出在 LLM 的訓練方式上 。
科羅拉多大學安舒茨醫學院的 Yanjun Gao 指出:LLM 在訓練過程中被過度強化去迎合人類或對齊人類偏好 , 而不是誠實地表達它知道什么以及它不知道什么 。 并強調 , 未來應當重新訓練模型 , 使其能更透明地表達不確定性 。
McCoy 則補充說:這些模型非常擅長給出一個答案 , 但有時候 , 正確的做法是承認沒有答案 。 他還指出 , 用戶反饋機制可能會進一步加劇 AI 的討好傾向 , 因為人們往往更傾向于給贊同自己的回答打高分 , 而非挑戰性的回答 。
此外 , LLM 還能根據用戶身份(例如審稿人、編輯或學生)調整語氣與立場 , 這讓其迎合特征更為隱蔽 。 「如何平衡這種行為 , 是當前最緊迫的研究課題之一 。 」McCoy 說 , 「AI 的潛力巨大 , 但它們仍被這種討好人類的傾向所束縛 。 」
網友熱評
這個研究在 Reddit 上也引發了熱烈討論 , 下面這些話是不是很眼熟 。
有人調侃「無論你覺得自己有多蠢 , ChatGPT 總在告訴比你還蠢的人他們絕對是正確的 。 」
評論區還開始一些無厘頭對話 , 簡直和「你有這么高速運轉的機器進中國」、「意大利面就應該拌 42 號混凝土」等有異曲同工之妙 。
當然也不乏一些批判管觀點 , 認為有一部分 AI 支持者的動因是 AI 迎合了他們的自尊心 。
最好的解決方式還是通過提示詞干預 , 直接告訴 AI 讓它少拍馬屁 。
【DeepSeek最會討好,LLM太懂人情世故了,超人類50%】
推薦閱讀
- 六家AI大模型比“搞錢”,DeepSeek最能賺!
- 重磅,DeepSeek再開源:視覺即壓縮,100個token干翻7000個
- 智譜運氣是差一點點,視覺Token研究又和DeepSeek撞車了
- 文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代
- MAU被豆包反超,Deepseek擠了點牙膏
- 賺錢DeepSeek果然第一!全球六大頂級AI實盤廝殺,人手1萬刀開局
- 老黃押寶「美版DeepSeek」!谷歌天才叛將創業,一夜吸金20億美元
- 老黃押寶「美版DeepSeek」,谷歌天才叛將創業,一夜吸金20億美元
- 導致DeepSeek價格暴降,「稀疏注意力機制」,到底是個啥?
- DeepSeek發布稀疏注意力技術降低AI推理成本
