清華、上海AI Lab等團隊發布推理模型RL綜述,通往超級智能之路

清華、上海AI Lab等團隊發布推理模型RL綜述,通往超級智能之路

文章圖片

【清華、上海AI Lab等團隊發布推理模型RL綜述,通往超級智能之路】清華、上海AI Lab等團隊發布推理模型RL綜述,通往超級智能之路

文章圖片

清華、上海AI Lab等團隊發布推理模型RL綜述,通往超級智能之路

文章圖片


機器之心報道
編輯:冷貓
超高規格團隊 , 重新審視RL推理領域發展策略 。
在人工智能的發展中 , 強化學習 (RL) 一直是一種非常重要的方法 。
自 1998 年 Sutton 提出強化學習概念以來 , 就明確了只要給出明確的獎勵信號 , 智能體就能學會在復雜環境中超越人類 。
在 2013 年 , DeepMind 就展示過一個小實驗:用 RL 訓練的智能體 , 只憑屏幕上的像素和得分反饋 , 就能學會玩上世紀的街機游戲《打磚塊》 。 幾年后 , AlphaGo 和 AlphaZero 更是通過自我對弈和獎勵信號 , 超越了世界頂尖棋手 , 在圍棋、國際象棋和將棋上達到「人類難以企及」的水平 。
進入大模型時代后 , RL 又找到了新的舞臺 。 它最初被用于讓模型更符合人類偏好 , 比如通過人類反饋強化學習(RLHF) , 讓模型的回答更有用、更誠實、更安全 。
最近幾年 , 一個新的趨勢正在出現:研究者們希望通過 RL 不僅讓模型「更聽話」 , 還真正學會「推理」 。
這類被稱為大推理模型(LRM)的系統 , 會通過可驗證的獎勵來提升推理能力 , 例如數學題答對率或者代碼能否通過測試 。 像 OpenAI 的 o1 和 DeepSeek-R1 就展示了這種方法的潛力:模型在經過 RL 訓練后 , 能夠更好地規劃、反思 , 甚至在出錯時自我糾正 。 這意味著 , 推理能力也許和參數規模、訓練數據一樣 , 可以通過「擴展」不斷增強 。
然而 , 要讓 RL 在大推理模型中真正實現大規模應用 , 還存在許多挑戰:獎勵設計是否合理 , 算法是否高效 , 數據和算力能否支撐等等 。
過去兩個月里 , 來自清華大學和上海人工智能實驗室等的研究者們組織并總結了推理模型的最新 RL 研究 , 形成了一份非常全面的調查綜述 , 回顧最新進展 , 討論面臨的問題 , 并展望未來的發展方向 。

論文標題:A Survey of Reinforcement Learning for Large Reasoning Models 論文鏈接:https://arxiv.org/abs/2509.08827本文綜述了近年來強化學習在大語言模型推理能力方面的最新進展 。
RL 在推動 LLM 能力邊界上取得了顯著成果 , 尤其在數學、編程等復雜邏輯任務中表現突出 。 因此 , RL 已逐漸成為將 LLM 演化為具備更強推理能力的大推理模型(LRM)的核心方法 。
隨著該領域的快速發展 , 如何進一步擴展 RL 在 LRM 上的應用 , 已面臨基礎性挑戰 —— 不僅涉及算力資源 , 也包括算法設計、訓練數據與基礎設施建設 。 為此 , 研究者們認為此時有必要回顧這一領域的發展歷程 , 重新審視其未來方向 , 并探索提升 RL 可擴展性以邁向通用人工超級智能(Artificial SuperIntelligence ASI)的策略 。
本文重點梳理了自 DeepSeek-R1 發布以來 , RL 在 LLM 與 LRM 推理能力上的應用研究 , 涵蓋其基礎組件、核心問題、訓練資源及下游應用 , 以此識別未來的研究機遇與發展路徑 。 本文綜述或許能夠推動 RL 在更廣泛推理模型中的研究與應用 。

綜述概覽
本文介紹了面向大推理模型的強化學習的基礎組件 , 以及尚待解決的問題、訓練資源和應用場景 。 本綜述的核心重點在于:聚焦語言智能體(language agents)與環境之間的大規模交互 , 以及這一過程在長期演化中的關鍵作用 。

大模型發展時間線 。 展示了采用強化學習訓練的具有代表性的推理模型的發展歷程 , 其中包括開源和閉源的語言模型、多模態模型以及智能體模型 。
推理模型的兩個重要里程碑(OpenAI o1 和 DeepSeek-R1 )表明 , 通過帶有可驗證獎勵(RLVR)的訓練 , 例如數學題答案正確率或代碼單元測試通過率 , 可以讓模型掌握長鏈推理能力 , 包括規劃、反思和自我糾錯 。
OpenAI 報告指出 , o1 的性能會隨著額外的 RL 訓練(訓練時算力增加)以及推理階段投入更多 “思考時間”(推理時算力增加)而持續提升, 揭示了除了預訓練之外的一條全新擴展路徑 。 DeepSeek-R1 則在數學任務中采用基于規則的顯式準確率獎勵 , 在編程任務中采用編譯器 / 測試驅動的獎勵 , 展示了大規模 RL(尤其是 Group Relative Policy Optimization GRPO)在基礎模型上即可引導復雜推理能力的可能性 。

語言模型中 RL 方法的演變 , 展示了從 RLHF (2022) 到 DPO (2023) 再到 RLVR (2025) 以及未來開放式 RL 系統的進展 。 每個階段都展示了任務解決能力和能力提升的增加 。
這種轉變將推理重新定位為一種可以顯式訓練和擴展的能力 。 LRMs 在推理過程中會分配大量計算資源去生成、評估和修正中間推理鏈, 且其性能隨著計算預算增加而提升 。 這種動態機制提供了一條與預訓練時的數據規模和參數規模擴展互補的能力增長路徑 , 同時利用獎勵最大化目標 , 在存在可靠驗證器的領域中實現自動可檢驗獎勵 。 此外 , RL 還能通過生成自監督訓練數據來克服數據限制 。 因此 , RL 越來越被視為在更廣泛任務上實現通用人工超級智能(ASI)的潛在技術路徑 。
然而 , 面向 LRMs 的 RL 擴展也帶來了新的挑戰 , 不僅限于計算資源 , 還涉及算法設計、訓練數據和基礎設施 。 如何以及在哪些方面擴展 RL 才能實現更高水平的智能并產生現實價值 , 仍是懸而未決的問題 。 因此 , 研究者們認為 , 現在正是重新審視這一領域發展、探索增強 RL 可擴展性策略的關鍵時機 。
本文的綜述工作如下:
在 LRM 語境下引入 RL 建模的基本定義 , 并梳理自 OpenAI o1 發布以來的前沿推理模型發展 。 回顧 RL for LRM 的核心組成部分 , 包括獎勵設計、策略優化和采樣策略 , 并對不同研究方向和技術方案進行比較 。 討論 LRM 強化學習中的基礎性與爭議性問題 , 例如 RL 的角色、RL vs. SFT、模型先驗、訓練方法以及獎勵定義 , 并指出這些問題需要深入探索以推動 RL 的持續擴展 。 總結 RL 的訓練資源 , 包括靜態語料庫、動態環境和訓練基礎設施 , 并指出這些資源盡管可復用 , 但仍需進一步標準化和發展 。 綜述 RL 在廣泛任務中的應用 , 涵蓋編程任務、智能體任務、多模態任務、多智能體系統、機器人任務以及醫學應用 。 最后 , 探討未來 RL for LLM 的研究方向 , 包括新算法、新機制、新功能以及其他潛在研究路徑 。

綜述目錄
強化學習在大推理模型上的應用 , 標志著人工智能發展的一次重要轉折 。 它不僅僅是讓語言模型「對齊」人類的偏好 , 更是在推動它們真正掌握推理和邏輯思考的能力 。 通過可驗證的獎勵機制、先進的優化算法以及大規模的訓練基礎設施 , 研究者們正在打造能夠進行多步推理、跨領域解決問題的智能系統 。
當然 , 這一方向仍面臨不少挑戰:如何設計合適的獎勵信號、如何在龐大的算力和數據需求下實現高效擴展、以及如何確保這些模型在實際應用中可靠 。 盡管如此 , 近年的快速進展已經證明了這一方法的潛力 。 可以預見 , 未來基于 強化學習的推理能力還將持續提升 , 并有望孕育出能夠真正理解和解決復雜問題的智能系統 , 從而在科學研究、工程應用乃至日常生活的方方面面 , 帶來深遠的影響 。
更多詳細信息請參閱原論文 。

    推薦閱讀