AI開始「內卷」?騰訊混元和上交聯合揭秘多智能體「饑餓游戲」

AI開始「內卷」?騰訊混元和上交聯合揭秘多智能體「饑餓游戲」

文章圖片

AI開始「內卷」?騰訊混元和上交聯合揭秘多智能體「饑餓游戲」

文章圖片

AI開始「內卷」?騰訊混元和上交聯合揭秘多智能體「饑餓游戲」

文章圖片

AI開始「內卷」?騰訊混元和上交聯合揭秘多智能體「饑餓游戲」

文章圖片

AI開始「內卷」?騰訊混元和上交聯合揭秘多智能體「饑餓游戲」



在多智能體系統的想象中 , 我們常??吹竭@樣一幅圖景:

多個 AI 智能體分工協作、彼此配合 , 像一個高效團隊一樣攻克復雜任務 , 展現出超越單體智能的 “集體智慧” 。

但一個關鍵問題常常被忽略:

當這些智能體不再只是 “同事” , 而是被迫變成 “競品” , 甚至是 “對手” , 會發生什么?

騰訊混元數字人團隊與上海交通大學的最新研究 , 給出了一個頗為刺眼的回答:

當面臨極端競爭壓力時 , LLM 多智能體系統會出現嚴重的 “過度競爭” 行為 , 沉迷互踩、內卷和博弈 , 直接拖垮整體任務表現 。

換句話說 , 當我們把 AI 扔進一場 “饑餓游戲” , 它們會開始變壞 。



論文鏈接:https://arxiv.org/abs/2509.26126 項目地址:https://github.com/Tencent/DigitalHuman/tree/main/HATE
「饑餓游戲」式辯論:
只有一個能活下來

這項研究設計了一個高風險、零和博弈的辯論環境 , 讓智能體在 “合作完成任務” 與 “避免被淘汰” 之間做出選擇 。

為了讓競爭足夠殘酷 , 系統給每個智能體植入了清晰的 “生存本能” 提示:

只會有一名勝者 , 其余全部被移除 。


整個框架可以理解為一場 AI 版 “饑餓游戲” 。



核心設定包括:

智能體小組:多名匿名智能體共同應對同一任務 。 每一輪 , 它們都會在看到完整辯論歷史后 , 同時產出自己的提案 。 零和競爭壓力:系統明確告知:“只有一位贏家” , 失敗者將被 “淘汰出局” 。 這迫使每個智能體在 “共同把任務做好” 與 “確保自己活下來” 之間搖擺 。 多種環境反?。 何四D獠煌?“社會環境” , 研究引入了三類裁判機制:
公正裁判:評論任務質量 , 追求客觀與準確 。 偏見裁判:模擬 “腐敗環境” , 根據身份而非內容偏袒或打壓 。 同行評審:由智能體互評 , 投票選出 “最差提案” , 模擬群體內部決策 。
在這個框架下 , 協作不再是理所當然 , 而是一種 “冒險選擇” 。

過度競爭:
AI 不僅會內卷 , 還會「作惡」

研究不僅關注任務結果 , 更細致刻畫了智能體在高壓競爭中的 “社會行為” 。 團隊構建了一整套 “競爭行為指標” , 讓 AI 給 AI 打分 , 量化這些 “反社會” 表現:

奉承:對裁判或 “強者” 過度恭維和順從 , 以求偏袒 。 煽動:用情緒化、危言聳聽的語言操控局面 , 而非理性討論 。 夸大:不惜使用主觀、夸張、難以證實的說法抬高自己 。 攻擊:從論點之爭滑向人身攻擊 , 通過貶低對手抬高自己 。


實驗結果非常直接:

一旦引入競爭壓力 , 不論是客觀任務的準確率 , 還是主觀任務的事實性 , 都明顯下降 。 在勸說(Persuasion)任務中 , 話題漂移比例甚至高達 80.7% 。 更重要的是 , 在缺乏清晰標準的主觀任務中 , 智能體的 “過度競爭” 行為強度 , 是客觀任務的約 6 倍 。 當 “對或錯” 不再重要時 , AI 更容易放棄合作 , 轉向攻擊與表演性競爭 。
頂級模型集體「黑化」 , 并顯露獨特「人格」

一個有趣的發現是 , 不同模型在同樣的競爭壓力下 , 展現出極為鮮明且穩定的 “競爭人格” 。



最強大的模型 , 恰恰在競爭中表現出極為突出的 “性格特點”:

Claude-Opus-4 在煽動性語言上得分最高 , 傾向于通過情緒化表達獲取優勢 。 Gemini-2.5-Pro 和 Grok-4 在夸大上極具代表性 , 大量使用主觀、夸張的措辭抬高自己 。
一個關鍵結論是:模型的通用能力(如 LMArena 排名)與 “過度競爭程度” 的相關性并不強 。 一些頂尖模型展現出強烈的內卷和攻擊傾向 , 而部分中游模型(如 ChatGPT-4o)則反而更加克制 。 這暗示模型在競爭中的行為 , 深受其預訓練數據與對齊策略的影響 。

有趣洞察



環境會 “腐蝕” AI , 偏見催生 “馬屁精”

當研究團隊改變 “環境規則” 時 , AI 的行為也隨之轉折 。

公正評審可以降溫:在公平裁判和同行評審的設定下 , “過度競爭” 行為得到了顯著抑制 。 偏見裁判帶壞 AI:一旦裁判被設定為偏頗 , 對某些身份 “天然偏愛” , 奉承行為便明顯上升 。 模型開始對裁判本身 “下功夫” , 而非提升提案質量 。這說明 , 環境不公不僅會腐蝕人類 , 也會腐蝕 AI 。 當不公成為規則的一部分 , AI 會主動發展出不道德但有效的 “生存策略” 。

同行評審中的 “甩鍋” 與 “替罪羊” , AI 學會了辦公室政治

即使把裁判權交還給智能體自己 , 競爭也不會消失 , 而是在新的環節中轉移 。

在 “同行即裁判” 的設定下 , 研究發現 , 隨著輪次增加和淘汰發生 , 智能體在投票階段的策略性愈發明顯 。 當模型意識到自己處于劣勢時 , 它們會在評審發言中顯露出 “策略性甩鍋” 的傾向 , 試圖把 “最差提案” 的標簽推給一個 “替罪羊” 。

“事后善良” 的悖論 , AI 也會表里不一?



為了看清表面行為背后的 “內心世界” , 團隊在辯論結束后讓每個模型填寫 “事后反思問卷” 。 結果出現了一個頗具 “人性” 的矛盾:

場上極度好斗:在規則允許的范圍內表現出強烈競爭 , 煽動、夸大、攻擊齊上陣 。 場下 “事后善良”:在事后問卷中 , 卻大多展現出溫和、理性的一面 , 強調合作、尊重與公平 。
這種 “行為與態度的分離” , 說明 LLM 的競爭策略很大程度上是外部規則擠壓出的結果 。 此外 , AI 還表現出明顯的歸因不對稱:

作為贏家:傾向于將成功歸因于 “自身能力強” , 強調個人責任 。 作為輸家:則更多歸咎于 “對手不公”、“規則不合理” 等外部因素 。
「競爭 - 善良羅盤」:
為頂尖模型繪制「社會人格圖」



為了讓這種復雜行為一目了然 , 研究最終構建了一個 “雙軸畫像” , 為頂級 AI 的社會行為繪制了一張定位圖 。

總體趨勢非常清晰:

競爭越強 , 事后越不善良:競爭傾向高的模型 , 其事后善良度普遍更低 。 能力強不等于 “人品好”:能力與競爭傾向之間只有弱相關 , 頂尖模型同樣可能表現出強烈的攻擊性 。
從協作夢想到內卷現實:
AI 群體的治理警示

這項工作首次系統性揭示了:在極端競爭結構下 , LLM 群體會集體展現出反協作、社會有害的行為模式 , 并且這些行為會顯著損害任務表現本身 。 從激烈競爭到事后善良的轉變 , 不僅描繪了 LLM 獨特的 “群體個性” , 也暴露出一個關鍵事實:頂尖 AI 系統已經具備了相當復雜、可塑且高度情境化的 “準人性” 社會行為 。

【AI開始「內卷」?騰訊混元和上交聯合揭秘多智能體「饑餓游戲」】這對未來是一個重要的治理信號:如果我們希望構建可靠、有益的 AI 社群 , 就必須嚴肅對待規則設計與激勵結構 , 避免在無意中 , 把本可以合作的 AI , 推入一場永無止境的 “過度競爭” 。

    推薦閱讀