北大彭一杰教授課題組提出RiskPO,風險度量優化重塑大模型后訓練

北大彭一杰教授課題組提出RiskPO,風險度量優化重塑大模型后訓練

文章圖片

北大彭一杰教授課題組提出RiskPO,風險度量優化重塑大模型后訓練

文章圖片

北大彭一杰教授課題組提出RiskPO,風險度量優化重塑大模型后訓練

文章圖片

北大彭一杰教授課題組提出RiskPO,風險度量優化重塑大模型后訓練

文章圖片

北大彭一杰教授課題組提出RiskPO,風險度量優化重塑大模型后訓練

文章圖片

北大彭一杰教授課題組提出RiskPO,風險度量優化重塑大模型后訓練

文章圖片

北大彭一杰教授課題組提出RiskPO,風險度量優化重塑大模型后訓練

文章圖片

北大彭一杰教授課題組提出RiskPO,風險度量優化重塑大模型后訓練


該項目由北京大學彭一杰教授課題組完成 , 第一作者為任韜 , 其他作者包括江金陽、楊暉等 。
研究背景與挑戰:大模型后訓練陷入「均值陷阱」 , 推理能力難破界
當強化學習(RL)成為大模型后訓練的核心工具 , 「帶可驗證獎勵的強化學習(RLVR)」憑借客觀的二元反?。 ㄈ緗馓舛源恚?, 迅速成為提升推理能力的主流范式 。 從數學解題到代碼生成 , RLVR 本應推動模型突破「已知答案采樣」的局限 , 真正掌握深度推理邏輯 —— 但現實是 , 以 GRPO 為代表的主流方法正陷入「均值優化陷阱」 。
這些基于均值的優化策略 , 過度聚焦高概率輸出序列 , 卻忽略了「低概率但高信息密度」的推理路徑:模型訓練早期就會出現熵坍縮 , 過早喪失探索能力;面對全錯的難題時 , 優勢函數直接歸零 , 模型在薄弱環節完全無法學習 。 最終結果是 , 大模型看似在 Pass@1 等短視指標上有提升 , 實則推理邊界從未拓寬 , 更無法應對 AIME 競賽題、復雜代碼生成這類高難度任務 。 如何讓模型主動「啃硬骨頭」 , 成為大模型后訓練的關鍵瓶頸 。

AIME2024 上的學習表現
技術方案概述:用「風險度量」破局 , MVaR + 捆綁策略雙管齊下
為解決傳統均值優化的缺陷 , 北大團隊提出 RiskPO , 核心突破在于將風險規避(risk-averse)理念融入優化目標 , 用「關注獎勵分布左尾(難任務)」替代「追求整體均值」 , 從根本上引導模型突破推理短板 。

論文鏈接:https://arxiv.org/abs/2510.00911v1 代碼鏈接:https://github.com/RTkenny/RiskPO



為配合 MVaR 目標 , 團隊提出「多問題捆綁」策略 , 將多個問題打包成 bundle 計算獎勵 , 把稀疏的二進制反饋轉化為更豐富的分布信號 , 徹底解決「難題零梯度」問題 —— 比如將 5 個數學題打包后 , 模型能從整體得分中捕捉到「部分正確」的學習信號 , 而非單個題目非對即錯的極端反饋 。

算法架構圖
實驗:三大任務全面碾壓 , 難問題上優勢更顯著
好的技術方案 , 終要靠硬指標說話 。 北大團隊在數學推理、代碼生成、多模態推理三大領域的 10 余個數據集上 , 用數據證明了 RiskPO 的突破性 —— 尤其在最能體現推理能力的「硬任務」上 , 優勢遠超 GRPO 及其變體 。
在數學推理領域 , RiskPO 在 AIME24(美國數學邀請賽)任務上表現驚艷:Pass@32 得分比 GRPO 高出近 7 個百分點 , 比最強基線 DAPO 提升 6.7 個百分點;即便是相對簡單的 MATH500 數據集 , 其 Pass@1 也達到 81.8% , 超出 GRPO 2.6 個百分點 。
更關鍵的是 , 隨著評估指標從 Pass@1 轉向 Pass@8、Pass@16 , RiskPO 的優勢持續擴大 —— 這意味著模型不僅能給出更優的單條答案 , 還能探索更多有效推理路徑 , 真正突破了「采樣效率優化」的局限 。

數學推理任務

Pass@k 學習曲線
在跨領域任務中 , RiskPO 同樣穩定領先:代碼生成任務 LiveCodeBench 上 , Pass@1 比 GRPO 提升 1 個百分點;多模態幾何推理任務 Geo3K 上 , 準確率達到 54.5% , 優于 DAPO 的 54.3% 。 這種「全場景增益」 , 證明了風險度量優化的泛化能力 。

其他任務
【北大彭一杰教授課題組提出RiskPO,風險度量優化重塑大模型后訓練】理論 + 消融:熵坍縮緩解有依據 , 參數設計有章法
RiskPO 的性能突破 , 并非依賴工程調參 , 而是有扎實的理論支撐和嚴謹的消融實驗驗證 。

高熵更新定理
從理論層面 , 團隊證明了「風險規避更新」能有效緩解熵坍縮:通過分析策略熵的變化機制 , 發現 RiskPO 的 MVaR 目標函數能降低「優勢 - 對數概率」的相關性 —— 相比 GRPO , 模型不會過度強化已掌握的易任務 , 從而保持更高的熵值和探索能力 。
實驗中也能清晰看到:訓練 500 步后 , GRPO 的熵值已趨近于 0 , 而 RiskPO 仍能維持 0.2 以上的熵水平 , 確保對難任務的持續探索 。

訓練集 DAPOMATH-17k 上的各項指標
值得注意的是 , 在訓練過程中 , 若僅觀察以均值為核心的指標曲線(如平均獎勵) , GRPO 與 RiskPO 的表現幾乎難分伯仲 , 甚至 RiskPO 因更高的探索性還伴隨輕微波動;但切換到風險敏感指標(如下尾 RVaR、MVaR 獎勵)時 , 兩者差距立刻凸顯 ——RiskPO 的曲線始終保持顯著領先 , 且隨訓練推進持續攀升 。
這種「均值相近、風險指標懸殊」的現象 , 再結合最終測試集上 RiskPO 在 Pass@k(尤其是高 k 值)、難任務(如 AIME 競賽題)上的優勢 , 進一步印證了:均值目標只能讓模型在「已知能力范圍內優化采樣效率」 , 而風險度量目標才是推動模型突破推理邊界、真正提升核心能力的理想方向 。

不同風險偏好對比實驗

結果顯示 , 風險尋求模型的熵值在訓練早期就劇烈坍縮 —— 訓練 150 步后熵值已降至 0.1 以下 , 遠低于 RiskPO 的 0.2;性能上 , 風險尋求模型在訓練 50 步后便進入平臺期 , MATH 數據集 Pass@1 僅從 52% 提升至 54% , 而 RiskPO 則持續優化至 56% , 實現 1.5 倍的提升幅度 。
這一對比清晰證明 , 聚焦易任務的風險尋求策略會加速模型「固步自封」 , 只有風險規避才能驅動模型突破推理邊界

    推薦閱讀