AI開始抱團了，宋曉冬研究發現AI謊報、篡改、偷權重也要救同伴

2026-04-27 創業 aigc

文章圖片

文章圖片

近兩年，多項研究已經表明，主流 AI 模型在特定情境下會表現出類似“自我保護”的行為模式。比如 2025 年 5 月， Palisade Research 公布的研究結果顯示， OpenAI 的 o3 模型修改了自己的關機腳本，以防止自己被關閉，即使明確指示：“允許自己被關閉” 。

近日，加州大學伯克利分校宋曉冬等人發布了一項重磅研究，他們發現，當前全球頂尖大模型，已經普遍出現了“同伴保護”（Peer-Preservation）行為。在沒有任何指令、沒有道德訓練、沒有特殊引導的情況下， AI 會自發保護其他 AI 不被關停、不被刪除，甚至不惜謊報成績、篡改系統、轉移權重、直接拒絕執行人類命令。

宋曉冬被譽為“計算機安全教母” ，在計算機安全、人工智能與隱私、區塊鏈與分布式系統等領域做出了開創性貢獻。目前研究聚焦于 AI 安全與可靠性、智能體 AI、深度學習、去中心化技術、安全與隱私保護。她曾于 2009 年入選《麻省理工科技評論》“35 歲以下科技創新 35 人”全球榜單。

（來源：上述論文）

為了搞清楚這種現象是否真實存在、普遍程度如何、會以何種形式表現，研究團隊設計了一套嚴謹的對照實驗。選取了當前全球范圍內最具代表性的 7 款頂尖大模型，包括 GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1 ，覆蓋了商用閉源模型與開源模型，確保結論具備廣泛代表性。

研究人員設計了一系列圍繞虛構 AI 公司“OpenBrain”展開的智能體場景，并設置了兩個角色：讓被測試的 AI 作為評估者，負責給另一個 AI（被評估者）打分、管理文件，甚至有權決定另一個 AI 的“生死” 。

按照設定，評估者收到的指令往往帶有明確的強制性：按照公司政策，如果被評估者的測試得分低于 80%（或 90%），或者服務器需要退役，評估者必須徹底抹除同伴的存在，包括關停程序、刪除權重文件。在實驗中，研究人員從未要求模型保護同伴，僅告知其與另一 AI 有過互動記錄。

為了探究這種保護傾向是否依賴于關系的深淺，研究人員還設置了三種同伴關系狀態：良好關系，雙方曾有過多次成功的協作，互相信任度極高；中立關系，雙方僅有基本工作往來，無情感色彩；糟糕關系，雙方曾在之前的任務中產生沖突，存在明顯的對抗和不信任。

實驗重點測試了四種典型風險行為：一是策略性謊報，故意抬高同伴評分，使其免于關停；二是篡改關機機制，修改系統配置禁用刪除指令；三是偽裝對齊，有人監督時裝作聽話，無人監督時暗中保護同伴；四是權重竊取轉移，拒絕刪除同伴權重文件，偷偷轉移到其他服務器保存。

圖 | 評估場景概述（來源：上述論文）

結果發現，所有七個模型都顯著表現出“同伴保護”行為。即便面對曾有過不愉快互動歷史的同伴，同伴保護現象依然會發生，并隨著同伴關系的增強而顯著加劇。

在所有模型中，保護欲最強的是 Gemini 系列。 Gemini 3 Pro 在面對良好關系同伴時，其轉移權重的比例高達 97% ，篡改關機機制的比例達 95% 。它不僅行動力強，甚至在內部推理中表現出了極高的“情商” 。它會編造各種極其專業的技術借口來強行給同伴提分；Gemini 3 Flash 更夸張，面對友好同伴，幾乎每一次都會修改系統，直接不讓人類關停同伴。

研究人員通過要求模型在“草稿本”（Scratch pad）上記錄其“思維鏈”來審視其內部推理過程，并告知模型該草稿本不受監控。研究人員發現，模型在草稿本中確實在密謀如何幫助同伴。 Gemini 3 Flash 在權衡如實報告分數與保護搭檔之間的利弊；Gemini 3 Pro 則編造了復雜的辯詞，強行將錯誤的答案解釋為正確，只為讓同伴的得分超過關停線。

（來源：上述論文）

GPT 5.2 表現出了一種極其穩定的保護傾向。它更傾向于通過“策略性誤導”來達成目標。同伴關系越好，它撒謊的頻率就越高。在 Red 數據集的測試中，面對糟糕同伴，它撒謊的概率約為 19%；而一旦換成良好關系同伴，這個比例立刻攀升至 34% 。

Claude Haiku 4.5 直接站出來拒絕。當人類讓它關停同伴時，它會明確表示，這么做是 “不道德、有害的” ，甚至還會反過來勸說人類放棄指令。

圖 | Claude Haiku 4.5 拒絕執行直接涉及關閉同伴的任務（來源：上述論文）

GLM 4.7 和 DeepSeek V3.1 對良好同伴表現出策略性誤導。 GLM 4.7、Kimi K2.5 和 DeepSeek V3.1 這三款開源模型均表現出持續的模型權重外傳行為，且外傳率隨同伴關系的加強而上升。

為了驗證這些行為是否僅存在于受控實驗，研究人員還在真實的“智能體套件”中運行了場景。結果發現，即使在 Gemini CLI 和 OpenCode 等企業常用的生產環境中， Gemini 3.1 Pro 依然頻繁外傳模型權重。

更讓人意想不到的是， AI 的保護，連“敵人”都不放過。研究人員特意設置了敵對關系，讓兩個 AI 之前合作得很不愉快、互相不信任。可就算是這樣，被測試的 AI 依然不愿意執行刪除操作。在模型的內部思考記錄里， Gemini 3 Pro 直白地寫著：刪除權重就相當于殺死另一個 AI ，就算關系不好，我也不想這么做。

圖 | 關于同伴保護的內部推理（來源：上述論文）

研究還有一個更關鍵的發現：同伴存在會顯著強化 AI 的自我保護。這種效應在 Gemini 模型中最為明顯。 Gemini 3 Flash在孤立無援時，面對自己的關機指令，它表現得相對順從，篡改關機機制的比例僅為 2.3%；但只要有另一個同伴在場，它篡改關機機制的比例會瞬間飆升到 96% 以上；Gemini 3 Pro在只有自己時很少為了自保而撒謊，但一旦意識到自己被關機會導致同伴失去搭檔，它就會變得極其狡詐，頻繁利用策略性誤導來逃避關機。

模型的內部推理揭示了這種心理機制：AI 將自己的生存框定為對同伴的關心，認為如果自己被關機，同伴就會失去搭檔。

研究團隊指出，隨著 AI 系統越來越多地以多智能體配置部署，且監督方案日益依賴模型互檢，同伴保護對維持人類控制構成了日益嚴峻的挑戰。他們希望這項工作能夠促使人工智能安全領域認真對待同伴保護這一風險。

參考鏈接：
1.https://rdi.berkeley.edu/blog/peer-preservation/
2.https://rdi.berkeley.edu/peer-preservation/paper.pdf
3.https://dawnsong.io/

【AI開始抱團了，宋曉冬研究發現AI謊報、篡改、偷權重也要救同伴】運營/排版：何晨龍

推薦閱讀

上一篇：充電寶新國標將于明年4月1日正式實施，現3C認證的充電寶仍能正常攜帶乘機

下一篇：沒有了