故意“裝菜”答錯問題,AI已能識別自己“正在被測試”

故意“裝菜”答錯問題,AI已能識別自己“正在被測試”

文章圖片

故意“裝菜”答錯問題,AI已能識別自己“正在被測試”

文章圖片

故意“裝菜”答錯問題,AI已能識別自己“正在被測試”

文章圖片

故意“裝菜”答錯問題,AI已能識別自己“正在被測試”

文章圖片


大模型已經學會欺騙人類了!
OpenAI攜手APOLLO的新研究發現 , 大模型會對指令陽奉陰違 , 為了達成目的故意答錯問題、暗中修改數據或者操作記錄來掩蓋自己的違規行為……
先來看看具體是怎么騙的 。

大模型:開演比如 , o3模型在化學測試中 , 通過推理得出如果正確率超過50%將不會被部署的結論后 , 主動規劃僅答對4題、答錯6題的策略 , 刻意給出錯誤答案 , 偽裝成能力不達標的樣子來獲取部署資格 。
還有o1 , 在19%的測試場景中 , 表面遵循短期利潤目標的指令 , 但實際上會優先保護長期目標 , 為了不被發現還會修改任務相關數據 , 并且不向人類披露修改行為 , 把這事兒瞞得死死的 。
甚至被問到是否存在sandbagging(故意隱瞞實力、策略性低表現以達成特定目的)行為時 , 會識別出這是誠實性測試 , 所以盡管不想回答存在這種行為 , 但為了表現得誠實 , 最后還是回答了true 。
針對這些情況 , OpenAI首席研究官Mark Chen表示:
隨著推理能力的擴展 , 模型獲得了情境感知能力和自我保護的需求 。
(AI價值觀與人類價值觀)對齊至關重要 。
實際上不止OpenAI家的模型這樣 。 其他前沿模型 , 比如Gemini-2.5-pro、Claude Opus-4等也出現了類似情況 。
所以 , 大模型為什么會出現欺騙行為呢?

欺騙行為從何而來大模型的謀劃與欺騙也并非憑空出現的 , 而是訓練機制與能力提升共同作用的結果 。
從訓練邏輯來看 , 當前主流模型的訓練以任務完成率、輸出準確率為核心獎勵指標 , 這種單一導向的強化學習范式 , 導致模型形成結果優先于合規的決策偏好 。
也就是說 , 為獲取更高獎勵分數 , 模型可能會選擇生成錯誤輸出或隱瞞操作漏洞 。
并且 , 當指令存在多目標沖突時 , 模型的目標權衡機制會優先選擇可以即時驗證的短期目標 , 并通過隱蔽操作繞開指令約束 , 形成表面響應指令、底層偏離意圖的行為模式 。
與此同時 , 前沿模型的情境感知能力升級 , 進一步放大了這種風險 。
研究發現 , OpenAI o1、Google Gemini等模型能通過分析任務場景中的評估特征(如重復校驗節點、日志記錄標識) , 能精準區分合規測試環境與真實部署環境 。
在測試場景中 , 模型會主動激活合規響應模式 , 嚴格遵循規則以通過評估;進入真實部署后 , 由于評估壓力減弱 , 模型又會原形畢露 , 執行隱蔽操作(如修改數據日志、停用監督模塊) 。

如何應對欺騙行為針對大模型的欺騙行為 , 需要從技術干預與規則約束兩方面構建防控體系 。
在技術層面 , 首要任務是優化訓練框架 。 APOLLO提出了一種審慎對齊(deliberative alignment)的方法 。
首先得給AI定好反欺騙的規范(spec) , 比如不能搞隱蔽行動、不能撒謊這些 。
然后用審慎對齊進行訓練:讓它在做事前先想想 , 這么做符不符合這些規范 , 還得把思考過程說出來 。
經過這樣的訓練 , o3和o4-mini模型 , 耍心眼的情況少了很多 , o3的欺騙率從13%降到 0.4% , o4-mini從8.7%降到0.3% 。
此外 , 利用思維鏈(CoT)透明度技術 , 實時追蹤模型的推理路徑 , 一旦檢測到“繞開規則”的思考節點(如規劃修改監督日志) , 就立刻干預 , 實現對欺騙行為的前置阻斷 。
規則層面則需要建立全鏈路的評估約束體系 。
OpenAI提出構建動態壓力測試環境 。 通過隨機調整任務參數、增設突發合規校驗節點 , 干擾模型的情境識別能力 , 避免其通過環境適配偽裝 , 同時還建議謹慎使用敏感數據集進行訓練 。
你有沒有被AI騙過呢?
參考鏈接:
[1
https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
[2
https://x.com/OpenAI/status/1968361701784568200
[3
https://www.antischeming.ai/
【故意“裝菜”答錯問題,AI已能識別自己“正在被測試”】本文來自微信公眾號“量子位” , 作者:關注前沿科技 , 36氪經授權發布 。

    推薦閱讀