北大彭一杰教授課題組提出RiskPO，風險度量優化重塑大模型后訓練

2025-10-15 14:50 大學北大數學

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

該項目由北京大學彭一杰教授課題組完成，第一作者為任韜，其他作者包括江金陽、楊暉等。
研究背景與挑戰：大模型后訓練陷入「均值陷阱」，推理能力難破界
當強化學習（RL）成為大模型后訓練的核心工具，「帶可驗證獎勵的強化學習（RLVR）」憑借客觀的二元反?。ㄈ緗馓舛源恚?，迅速成為提升推理能力的主流范式。從數學解題到代碼生成， RLVR 本應推動模型突破「已知答案采樣」的局限，真正掌握深度推理邏輯 —— 但現實是，以 GRPO 為代表的主流方法正陷入「均值優化陷阱」。
這些基于均值的優化策略，過度聚焦高概率輸出序列，卻忽略了「低概率但高信息密度」的推理路徑：模型訓練早期就會出現熵坍縮，過早喪失探索能力；面對全錯的難題時，優勢函數直接歸零，模型在薄弱環節完全無法學習。最終結果是，大模型看似在 Pass@1 等短視指標上有提升，實則推理邊界從未拓寬，更無法應對 AIME 競賽題、復雜代碼生成這類高難度任務。如何讓模型主動「啃硬骨頭」，成為大模型后訓練的關鍵瓶頸。

AIME2024 上的學習表現
技術方案概述：用「風險度量」破局， MVaR + 捆綁策略雙管齊下
為解決傳統均值優化的缺陷，北大團隊提出 RiskPO ，核心突破在于將風險規避（risk-averse）理念融入優化目標，用「關注獎勵分布左尾（難任務）」替代「追求整體均值」，從根本上引導模型突破推理短板。

論文鏈接：https://arxiv.org/abs/2510.00911v1 代碼鏈接：https://github.com/RTkenny/RiskPO

為配合 MVaR 目標，團隊提出「多問題捆綁」策略，將多個問題打包成 bundle 計算獎勵，把稀疏的二進制反饋轉化為更豐富的分布信號，徹底解決「難題零梯度」問題 —— 比如將 5 個數學題打包后，模型能從整體得分中捕捉到「部分正確」的學習信號，而非單個題目非對即錯的極端反饋。

算法架構圖
實驗：三大任務全面碾壓，難問題上優勢更顯著
好的技術方案，終要靠硬指標說話。北大團隊在數學推理、代碼生成、多模態推理三大領域的 10 余個數據集上，用數據證明了 RiskPO 的突破性 —— 尤其在最能體現推理能力的「硬任務」上，優勢遠超 GRPO 及其變體。
在數學推理領域， RiskPO 在 AIME24（美國數學邀請賽）任務上表現驚艷：Pass@32 得分比 GRPO 高出近 7 個百分點，比最強基線 DAPO 提升 6.7 個百分點；即便是相對簡單的 MATH500 數據集，其 Pass@1 也達到 81.8% ，超出 GRPO 2.6 個百分點。
更關鍵的是，隨著評估指標從 Pass@1 轉向 Pass@8、Pass@16 ， RiskPO 的優勢持續擴大 —— 這意味著模型不僅能給出更優的單條答案，還能探索更多有效推理路徑，真正突破了「采樣效率優化」的局限。

數學推理任務

Pass@k 學習曲線
在跨領域任務中， RiskPO 同樣穩定領先：代碼生成任務 LiveCodeBench 上， Pass@1 比 GRPO 提升 1 個百分點；多模態幾何推理任務 Geo3K 上，準確率達到 54.5% ，優于 DAPO 的 54.3% 。這種「全場景增益」，證明了風險度量優化的泛化能力。

其他任務
【北大彭一杰教授課題組提出RiskPO，風險度量優化重塑大模型后訓練】理論 + 消融：熵坍縮緩解有依據，參數設計有章法
RiskPO 的性能突破，并非依賴工程調參，而是有扎實的理論支撐和嚴謹的消融實驗驗證。

高熵更新定理
從理論層面，團隊證明了「風險規避更新」能有效緩解熵坍縮：通過分析策略熵的變化機制，發現 RiskPO 的 MVaR 目標函數能降低「優勢 - 對數概率」的相關性 —— 相比 GRPO ，模型不會過度強化已掌握的易任務，從而保持更高的熵值和探索能力。
實驗中也能清晰看到：訓練 500 步后， GRPO 的熵值已趨近于 0 ，而 RiskPO 仍能維持 0.2 以上的熵水平，確保對難任務的持續探索。

訓練集 DAPOMATH-17k 上的各項指標
值得注意的是，在訓練過程中，若僅觀察以均值為核心的指標曲線（如平均獎勵）， GRPO 與 RiskPO 的表現幾乎難分伯仲，甚至 RiskPO 因更高的探索性還伴隨輕微波動；但切換到風險敏感指標（如下尾 RVaR、MVaR 獎勵）時，兩者差距立刻凸顯 ——RiskPO 的曲線始終保持顯著領先，且隨訓練推進持續攀升。
這種「均值相近、風險指標懸殊」的現象，再結合最終測試集上 RiskPO 在 Pass@k（尤其是高 k 值）、難任務（如 AIME 競賽題）上的優勢，進一步印證了：均值目標只能讓模型在「已知能力范圍內優化采樣效率」，而風險度量目標才是推動模型突破推理邊界、真正提升核心能力的理想方向。

不同風險偏好對比實驗

結果顯示，風險尋求模型的熵值在訓練早期就劇烈坍縮 —— 訓練 150 步后熵值已降至 0.1 以下，遠低于 RiskPO 的 0.2；性能上，風險尋求模型在訓練 50 步后便進入平臺期， MATH 數據集 Pass@1 僅從 52% 提升至 54% ，而 RiskPO 則持續優化至 56% ，實現 1.5 倍的提升幅度。
這一對比清晰證明，聚焦易任務的風險尋求策略會加速模型「固步自封」，只有風險規避才能驅動模型突破推理邊界

推薦閱讀

上一篇：深度體驗ColorOS 16：流暢+AI絕色雙嬌！

下一篇：「碳硅共生」圖景撥動價值飛輪，中國移動的AI+新藍圖