RLinf上新πRL：在線強化學習微調π0和π0.5

2026-04-27 機器人人工智能算法

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

近年來，基于流匹配的 VLA 模型，特別是 Physical Intelligence 發布的 π0 和 π0.5 ，已經成為機器人領域備受關注的前沿技術路線。流匹配以極簡方式建模多峰分布，能夠生成高維且平滑的連續動作序列，在應對復雜操控任務時展現出顯著優勢。

盡管如此， VLA 模型在訓練過程中嚴重依賴于大規模、高質量的人類演示數據，而收集和標注這些數據的成本高昂且周期漫長。強化學習允許智能體通過與環境的真實交互自行探索和迭代改進，可以減少 VLA 模型對大量數據的依賴，并進一步提升 SFT 的性能上限。

目前，針對流匹配 VLA 的 RL 研究仍較少，主流工作大多集中在 OpenVLA 和 OpenVLA-OFT 等自回歸 VLA 上。其核心挑戰在于：流匹配 VLA 通過迭代去噪生成動作，導致難以直接計算輸出動作的對數似然——而這是 PPO、GRPO 等策略梯度方法更新的關鍵。

清華、北大、CMU 等機構聯合推出了一套面向流匹配 VLA（π0 π0.5）的在線強化學習（PPO 和 GRPO）微調框架 πRL 。該框架基于 RLinf（首個面向具身智能的大規模強化學習系統）實現，提出 Flow-Noise 和 Flow-SDE 兩種微調方案，在公開測試平臺 LIBERO 達到平均 97.6% (π0) 和 98.3% (π0.5) ，驗證了微調方案的有效性。

進一步， πRL 在涵蓋 4352 種抓取-放置任務組合中進行訓練，成功率漲幅 40% 以上，最終成功率超 80% ，驗證了框架支持大規模任務訓練的能力。目前，全部代碼、模型和文檔示例已完全開源。

論文鏈接： https://arxiv.org/pdf/2510.25889 開源代碼： https://github.com/RLinf/RLinf 模型倉庫： https://huggingface.co/RLinf 復現文檔：https://rlinf.readthedocs.io/en/latest/rst_source/examples/pi0.html

圖 1：本框架分別支持 π0 和 π0.5 兩個模型，并提出了 Flow-Noise 和 Flow-SDE 兩種技術方案，在 LIBERO 和 ManiSkill 測試平臺上分別實現了最高 40.0% 和 44.7% 的增幅。

πRL 核心原理 【RLinf上新πRL：在線強化學習微調π0和π0.5】
針對流匹配 VLA 難以直接計算輸出動作對數似然問題， πRL 提出了兩條技術路線：Flow-Noise 和 Flow-SDE 。

圖 2： Flow-Noise 通過將去噪過程建模為離散馬爾可夫過程，能夠直接計算去噪序列的聯合概率密度；Flow-SDE 則將去噪與環境交互過程相結合，構建了雙層 MDP 。策略在 rollout 階段收集完數據后，統一采用 PPO 進行策略梯度優化。

Flow-Noise

注入可學習噪聲：引入一個可學習的噪聲網絡，在去噪每一步均加入噪聲，使去噪過程變為隨機過程。計算聯合概率：由于每一步噪聲均可知（由噪聲網絡輸出），整個去噪序列（從初始噪聲至最終動作）的聯合對數似然可精確計算。策略梯度優化：基于可精確計算的聯合對數似然，可直接用標準策略梯度方法進行優化。
Flow-SDE

ODE-SDE 轉化：將原有確定性 ODE 去噪步驟，轉化為等效 SDE ，從而在策略中引入隨機性。構建兩層 MDP：把 SDE 去噪作為內層循環，與智能體-環境交互（外層循環）結合，構建雙層 MDP 結構。混合采樣提速：訓練中大部分采用 ODE 確定性采樣，小部分用 SDE 探索，以加速訓練同時保證探索。策略梯度優化：在雙層 MDP 中，策略輸出由與環境交互的動作轉為流匹配模型輸出的速度場，可直接進行策略梯度優化。
Critic 設計

針對 π0 和 π0.5 模型， πRL 在應用 PPO 算法微調時，探索了兩種 Actor-Critic 架構：

Action Expert Critic（適用于 π0）
VLM 僅包含圖像和語言信息，機器人狀態與噪聲動作一同送入 Action Expert 。 Critic 接 Action Expert 隱藏層輸出，并通過對全部噪聲步取平均獲得穩定的估計。
VLM Critic（適用于 π0.5）
VLM 融合全部輸入（圖像、語言、機器人狀態）。 Critic 直接接 VLM 隱藏層輸出。

圖 3：我們系統性地探索了兩種 Critic 設計思路：一種將 Critic 部署在動作模型（Action Expert）之后，另一種則將 Critic 直接接入視覺語言模型（VLM）后。

實驗結果
πRL 在常用 VLA 評測集 LIBERO 及 ManiSkill 自建多任務集上驗證了其有效性。

LIBERO：少樣本 SFT+RL 范式超越全數據 SFT！

πRL 讓 π0（few-shot）平均成功率從 57.6% 提高到 97.6% ， π0.5（few-shot）從 77.1% 提高到 98.3% ，超越全數據 SFT 訓練的流匹配 VLA 表現。

圖 4：LIBERO 測試平臺下的性能對比

與此同時，在 LIBERO-Long 長時序任務上， πRL 使 π0.5 單樣本 (one-shot) SFT 性能從 43.9% 提升到 94.0%！

圖 5： LIBERO-Long 任務 one-shot SFT 的 RL 收斂曲線

ManiSkill：驗證大規模多任務 RL 能力！

為了驗證 πRL 對大規模多任務的支持能力，我們在 Maniskill 中構造了涵蓋 4352 種抓取-放置任務組合。結果表明，通過在320個并行環境中進行訓練， πRL（Flow-Noise）將 π0 成功率從 38.42% 提升到 78.83% ， π0.5 成功率從 40.06% 提升到 90.85% 。

圖 6：ManiSkill Main任務中Pi05的RL收斂曲線

此外，我們還設計了 12 個與訓練環境不同的域隨機化測試環境，用于考察模型的泛化能力。在這些環境中，我們改變語言指令、物體類型、桌面紋理，或者在執行過程中移動物體、添加多個物體，來考察模型的泛化能力，并在每個環境中進行了 256 次測試來排除統計漲落的結果的影響。結果表明， πRL 算法能夠顯著提升兩類模型在新環境下的泛化性能。

圖 7：ManiSkill環境中對泛化能力的測試

我們還在實驗中觀測到，相比監督微調，強化學習可以使得模型更少犯錯，模型完成操作任務的平均步數可以顯著減少，直到逼近專家數據水平：

圖 8：強化學習提高完成任務的效率

消融研究
除上述對比試驗外，論文還包含大量消融實驗，為后續基于流匹配 VLA 的 RL 研究積累了經驗。

算法對比（PPO vs. GRPO）：使用流匹配 VLA ， PPO 在最終性能和訓練穩定性上均優于 GRPO 。

圖 9：PPO 和 GRPO 算法的收斂曲線對比

MDP 對比： Flow-Noise（單層 MDP）收斂略快， Flow-SDE（雙層 MDP）單步更新更快（與去噪步數解耦），最終性能接近。
隨機性注入對比：可學習噪聲（Flow-Noise）與固定噪聲（Flow-SDE）兩種策略，在相同 MDP 框架下性能類似，證明兩類噪聲注入均有效。
Critic 設計：Critic 接在 VLM 后略優于接在 Action Expert 后，且更穩定。
更多技術細節和消融結果詳見論文。

未來展望
πRL 未來將繼續發布更多結果，包括：

更多基準測試集：接入更多仿真環境，進行更豐富的評測。提升 OOD 泛化能力：針對強化學習帶來的泛化增益展開更深入分析。真實機器人部署：推動 πRL 框架從仿真走向真實物理機器人，驗證其實際應用價值。

推薦閱讀

上一篇：東芝發布24TB容量S300 AI視頻監控硬盤

下一篇：銀河通用&清華推出DexNDM，用神經動力學重塑靈巧操作