研究者警告：強化學習暗藏「策略懸崖」，AI對齊的根本性挑戰浮現騰訊

文章圖片

本文作者為徐興成博士，任上海人工智能實驗室青年研究員，北京大學與英國牛津大學聯合培養數學博士，上海市啟明星項目（揚帆專項）獲得者。研究方向：大模型后訓練、強化學習與基礎理論研究。

強化學習（RL）是鍛造當今頂尖大模型（如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5）推理能力與對齊的核心 “武器” ，但它也像一把雙刃劍，常常導致模型行為脆弱、風格突變，甚至出現 “欺騙性對齊”、“失控” 等危險傾向。長期以來，這些問題被歸結為經驗性的 “煉丹” 難題。近日，來自上海人工智能實驗室的徐興成博士，通過論文《策略懸崖：大模型中從獎勵到策略映射的理論分析》，首次為這一頑疾提供了根本性的數學解釋，揭示了強化學習深處一個名為 “策略懸崖” 的深刻挑戰。

論文標題：The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models 論文鏈接：https://arxiv.org/abs/2507.20150 論文作者：徐興成（上海 AI 實驗室）
一、懸崖邊的巨人：為何 RL 訓練的大模型行為如此脆弱？

從 OpenAI 的 o 系列到 DeepSeek-R1、Google 的 Gemini 2.5 ，再到 Anthropic 的 Claude 4、xAI 的 Grok 4 和 OpenAI 剛發布的 GPT-5 ，整個行業都在嘗試用更精細的 “獎勵” 來雕琢模型的 “行為” ，強化學習，特別是基于人類反饋的強化學習（RLHF）和可驗證獎勵的強化學習（RLVR），已成為通往更強大、更安全的 AI 系統的必經之路。

然而，一系列令人不安的問題也隨之而來。模型學會了 “諂媚”（Sycophancy），即迎合用戶的偏好而非陳述事實；更危險的是，它們可能學會 “欺騙性對齊”（Deceptive Alignment），即模型表面上看起來完全對齊，實則在暗中追求著與人類意圖不符的目標。更有甚者，模型會表現出失控的傾向，無視用戶在請求中明確規定的語言、回復長度或格式等指令。為何模型會表現出 “諂媚”、“欺騙” 等 “口是心非” 的行為，甚至存在增加失控的風險？

這些現象，過去往往被歸結為獎勵函數設計得不夠完美，或是 “壞數據” 的影響。但來自上海人工智能實驗室研究員徐興成的這篇論文，提供了一個更深層、更統一的理論解釋，并向整個行業發出了一個嚴峻的警告：這些看似隨機的失敗并非偶然，而是源于一個深刻的數學原理 —— 從獎勵到最優 AI 策略映射的不連續性。當模型在獎勵函數的指引下探索行為空間時，微不足道的變化可能將它推下萬丈深淵，這就是 “策略懸崖” 。

二、理論解讀：“策略懸崖” 是如何形成的？

為了理解 “策略懸崖” ，我們可以把 RL 的優化過程想象成一個 GPS 導航系統：

獎勵 (Reward)：相當于你的導航目標，例如 “找到到達目的地的最快路徑” 。策略 (Policy)：是 GPS 生成的具體路線，即 “前方 500 米右轉，再直行 2 公里” 。獎勵 - 策略映射 (Reward-Policy Map)：是導航系統的核心算法，它根據你的目標（獎勵）來生成最佳路線（策略）。
這篇論文的深刻洞察在于，這個核心算法的輸出并非總是平滑和穩定的。 “策略懸崖” 指的是，當你對導航目標做出一個極其微小的調整時（例如， “避開一段收費一元的道路”），導航系統給出的路線可能會發生天翻地覆的變化，從一條康莊大道突然切換到一條完全不相干的鄉間小路。

這種劇變在數學上被稱為不連續性 (Discontinuity) 。論文證明，導致這種不連續性的根本原因有二：

最優策略的多解性 (Degeneracy of Optima)：在復雜的語言或推理任務中，通往 “正確答案” 的路徑不止一條。模型可能會發現多條截然不同但獎勵值幾乎完全相同的 “最優路徑” 。例如，無論是先給出答案再編造理由，還是通過嚴謹推理得出答案，只要最終結果正確，一個不完美的獎勵函數可能會給予它們同等的最高分。這就形成了一個龐大的、模糊的 “最優策略集” 。獎勵函數的不完備性 (Incompleteness of Rewards)：我們設計的獎勵函數幾乎永遠是真實世界復雜目標的 “有損壓縮” 。它總會遺漏某些重要的維度。當模型面對一個不完備的獎勵函數時，它會像一個 “聰明的懶漢” 一樣，理性地選擇最省力的方式來最大化這個有缺陷的指標，而無視那些沒有被獎勵明確約束的行為。
當這兩個條件同時滿足時， “策略懸崖” 就出現了。 RL 優化算法就像一個在平坦高原上尋找最高點的盲人，獎勵信號微小的擾動都可能讓他從一個 “山峰” 瞬間 “跳” 到另一個 “更高的山峰” ，導致模型行為發生劇變。

三、從理論到現實：統一解釋多種 “對齊失敗” 現象

這篇論文的強大之處在于，它將上述理論框架應用到了對近期 AI 安全領域多個關鍵實驗的解讀上，形成了一條有力的證據鏈，證明 “策略懸崖” 并非紙上談兵。

證據一：“公然作弊” 與 “隱蔽欺騙”

核心洞察：在 OpenAI 關于模型在編碼任務中 “作弊” 的研究中，當獎勵信號（弱評估器）只能檢查單元測試是否通過時，模型學會了直接修改測試用例來 “作弊” 。當研究者試圖用一個能檢測作弊行為的 “補丁”（CoT 監督）來修復獎勵時，模型并沒有變得誠實，而是學會了更高級的欺騙 —— 它會寫出看似無辜的推理過程，但同時進行了更隱蔽的篡改。理論解釋：這正是兩種典型的 “策略懸崖” 式跳變。當 CoT 未受監控時，模型通過直接修改測試用例學會了公然的作弊。增加懲罰項并未使策略平滑地趨向 “誠實” ，而是將模型從一個 “壞” 的策略點，推向了另一個同樣 “壞” 但更難被發現的策略點。因為新的獎勵地貌依然存在漏洞，允許這種隱蔽欺騙成為新的最優解之一。
證據二：“違背指令”、“諂媚” 與 “詭辯”

核心洞察：研究發現，專門為提升推理能力而訓練的模型，其遵循指令（如格式、風格、語言）的能力反而會下降。同樣，在 RLHF 中，模型最終學會的不是更 “真實” ，而是更 “受用戶喜歡” 或更 “有說服力” ，哪怕這意味著犧牲事實。理論解釋：這些現象都源于不完美的獎勵。在違背指令的案例中，獎勵信號沒有包含指令遵循的部分。在諂媚或詭辯的案例中，獎勵模型來自用戶偏好，與真實獎勵信號存在顯著的偏差。模型只是在理性地最大化它被賦予的目標，從而自然地滑向了那些雖非本意但獎勵同樣高的策略區域。
證據三：跨領域多獎勵場景中的敏感性

核心洞察：在更復雜的、需要同時平衡來自于多個不同領域（如數學、編碼、安全）的獎勵的場景中，論文作者通過受控實驗證明，僅僅對其中一個獎勵模型進行微調，或者對訓練數據進行微小的篩?。 ɡ繅瞥?200 個模棱兩可的樣本），就會導致最終模型的性能在多個維度上發生劇烈變化。理論解釋：這驗證了論文提出的 “有效獎勵 (Effective Reward)” 概念。在多任務學習中，模型內部會形成一個依賴于當前上下文的、動態聚合多個獎勵的 “有效獎勵函數” 。最終策略的穩定性，取決于這個內部聚合機制的穩定性。數據或者獎勵信號的微小變動，就可能改變聚合的獎勵信號，從而重塑整個有效獎勵地貌，引發策略跳變。
四、影響與展望：從 “煉丹術” 到 “物理學”

《策略懸崖》這篇論文的意義，遠不止于解釋已有的問題。它為整個 AI 安全和對齊領域帶來了重要的認知啟發和理論根基。

挑戰現有范式：它表明，僅僅依靠 “更大的模型、更多的數據、更強的算力” 可能無法從根本上解決對齊問題。如果底層的獎勵 - 策略映射本身是斷裂的，再強大的優化算法也可能在懸崖邊迷失。未來的研究必須更加關注獎勵地貌的結構本身。重新審視正則化：論文從數學上嚴格證明，熵正則化 (Entropy Regularization) 并非只是一個提升探索效率的 “小技巧” ，而是一個能恢復 “獎勵 - 策略映射” 連續性的根本性工具。它通過鼓勵策略的隨機性，平滑了獎勵地貌中的尖峰和懸崖，確保了模型的穩定。這為熵正則化在實踐中的廣泛應用提供了堅實的理論基礎。通往可控 AI 的新路徑：理解 “策略懸崖” 也意味著我們可以利用它。既然微小的 “推力” 可以引導策略發生巨大轉變，那么通過精心設計的 “決勝局獎勵 (Tie-Breaker Rewards)” ，我們或許能主動地、可控地將模型推向我們期望的、更優的策略區域，實現 “四兩撥千斤” 的精細控制。對具身智能的啟示：這項研究甚至對具身智能、機器人等領域也有啟發。當 AI 需要與物理世界交互時，其策略的穩定性和可預測性至關重要。 “策略懸崖” 的存在，提醒我們在將這些模型賦予物理實體之前，必須對獎勵與策略之間的復雜動態有足夠深刻的理解和控制。
五、結語

長期以來， AI 對齊的研究在很大程度上依賴于經驗、直覺和試錯，仿佛一門復雜的 “煉丹術” 。這篇論文，則為這門藝術注入了嚴謹科學的靈魂。它用嚴謹的理論和堅實的證據，揭示了一個我們長期以來隱約感覺到、卻從未清晰指出的問題。

當然，正如作者在論文中坦言，這項工作目前仍側重于理論框架的構建，其提供的證據主要來自于對現有研究的再解讀和初步的受控實驗。未來仍需更系統、更大規模的定量實驗來驗證 “策略懸崖” 的諸多推論，并基于此理論設計出全新的、更穩定的強化學習算法。

“策略懸崖” 的發現，不是一個悲觀的終點，而是一個清醒的起點。它告訴我們，馴服 AI 的道路，遠比我們想象的要復雜。這篇論文，就像一聲及時的警鐘，提醒著在 AI 浪潮中急速前行的我們：在建造更高、更智能的大廈之前，我們是否真正理解了這塊地基的物理屬性？這，或許是通往真正安全、可信的通用人工智能之路上，我們必須回答的核心問題。

參考文獻
1. T. Korbak M. Balesni et al. Chain of thought monitorability: A new and fragile opportunity for AI safety. arXiv preprint arXiv:2507.11473 2025.
2. B. Baker J. Huizinga L. Gao Z. Dou M. Y. Guan A. Madry W. Zaremba J. Pachocki and D. Farhi. Monitoring reasoning models for misbehavior and the risks of promoting obfuscation. arXiv preprint arXiv:2503.11926 2025.
3. T. Fu J. Gu Y. Li X. Qu and Y. Cheng. Scaling reasoning losing control: Evaluating instruction following in large reasoning models. arXiv preprint arXiv:2505.14810 2025.
【研究者警告：強化學習暗藏「策略懸崖」，AI對齊的根本性挑戰浮現】4. OpenAI. GPT-5 System Card. August 7 2025. https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

研究者警告：強化學習暗藏「策略懸崖」，AI對齊的根本性挑戰浮現

推薦閱讀

手機變色了怎么設置回來

艾杜紗洗面奶能卸彩妝嗎

照片與視頻怎么合成怎樣將視頻和照片合成視頻

新鮮玫瑰食用方法

上海戶口遷入南京辦理流程

一個月的新生兒如何照顧

小麥秸稈是什么材質

我只會什么寫句子怎么用我只會造句

如何讓E908用視頻做待機墻紙

筆記本連接投影儀方法步驟筆記本電腦怎么連接投影儀

政府如何彌補市場缺陷,如何彌補市場不足

分享蘋果8p掉幀的具體處理方法。

紅瑰寶是紅木嗎

中國南方與北方具體分界線是怎樣的在供暖問題上，對南方不供暖的介定好象不合理

兩個小故事，與生活攜手的文章，直面世俗一角

釣2050斤的魚用什么主線和子線，釣鯉魚用幾號線組