RLinf上新πRL:在線強化學習微調π0和π0.5

RLinf上新πRL:在線強化學習微調π0和π0.5

文章圖片

RLinf上新πRL:在線強化學習微調π0和π0.5

文章圖片

RLinf上新πRL:在線強化學習微調π0和π0.5

文章圖片

RLinf上新πRL:在線強化學習微調π0和π0.5

文章圖片

RLinf上新πRL:在線強化學習微調π0和π0.5

文章圖片

RLinf上新πRL:在線強化學習微調π0和π0.5



近年來 , 基于流匹配的 VLA 模型 , 特別是 Physical Intelligence 發布的 π0 和 π0.5 , 已經成為機器人領域備受關注的前沿技術路線 。 流匹配以極簡方式建模多峰分布 , 能夠生成高維且平滑的連續動作序列 , 在應對復雜操控任務時展現出顯著優勢 。

盡管如此 , VLA 模型在訓練過程中嚴重依賴于大規模、高質量的人類演示數據 , 而收集和標注這些數據的成本高昂且周期漫長 。 強化學習允許智能體通過與環境的真實交互自行探索和迭代改進 , 可以減少 VLA 模型對大量數據的依賴 , 并進一步提升 SFT 的性能上限 。

目前 , 針對流匹配 VLA 的 RL 研究仍較少 , 主流工作大多集中在 OpenVLA 和 OpenVLA-OFT 等自回歸 VLA 上 。 其核心挑戰在于:流匹配 VLA 通過迭代去噪生成動作 , 導致難以直接計算輸出動作的對數似然——而這是 PPO、GRPO 等策略梯度方法更新的關鍵 。

清華、北大、CMU 等機構聯合推出了一套面向流匹配 VLA(π0 π0.5)的在線強化學習(PPO 和 GRPO)微調框架 πRL 。 該框架基于 RLinf(首個面向具身智能的大規模強化學習系統)實現 , 提出 Flow-Noise 和 Flow-SDE 兩種微調方案 , 在公開測試平臺 LIBERO 達到平均 97.6% (π0) 和 98.3% (π0.5) , 驗證了微調方案的有效性 。

進一步 , πRL 在涵蓋 4352 種抓取-放置任務組合中進行訓練 , 成功率漲幅 40% 以上 , 最終成功率超 80% , 驗證了框架支持大規模任務訓練的能力 。 目前 , 全部代碼、模型和文檔示例已完全開源 。



論文鏈接: https://arxiv.org/pdf/2510.25889 開源代碼: https://github.com/RLinf/RLinf 模型倉庫: https://huggingface.co/RLinf 復現文檔:https://rlinf.readthedocs.io/en/latest/rst_source/examples/pi0.html

圖 1: 本框架分別支持 π0 和 π0.5 兩個模型 , 并提出了 Flow-Noise 和 Flow-SDE 兩種技術方案 , 在 LIBERO 和 ManiSkill 測試平臺上分別實現了最高 40.0% 和 44.7% 的增幅 。

πRL 核心原理 【RLinf上新πRL:在線強化學習微調π0和π0.5】
針對流匹配 VLA 難以直接計算輸出動作對數似然問題 , πRL 提出了兩條技術路線:Flow-Noise 和 Flow-SDE 。


圖 2: Flow-Noise 通過將去噪過程建模為離散馬爾可夫過程 , 能夠直接計算去噪序列的聯合概率密度;Flow-SDE 則將去噪與環境交互過程相結合 , 構建了雙層 MDP 。 策略在 rollout 階段收集完數據后 , 統一采用 PPO 進行策略梯度優化 。

Flow-Noise

注入可學習噪聲: 引入一個可學習的噪聲網絡 , 在去噪每一步均加入噪聲 , 使去噪過程變為隨機過程 。 計算聯合概率: 由于每一步噪聲均可知(由噪聲網絡輸出) , 整個去噪序列(從初始噪聲至最終動作)的聯合對數似然可精確計算 。 策略梯度優化: 基于可精確計算的聯合對數似然 , 可直接用標準策略梯度方法進行優化 。
Flow-SDE

ODE-SDE 轉化: 將原有確定性 ODE 去噪步驟 , 轉化為等效 SDE , 從而在策略中引入隨機性 。 構建兩層 MDP: 把 SDE 去噪作為內層循環 , 與智能體-環境交互(外層循環)結合 , 構建雙層 MDP 結構 。 混合采樣提速: 訓練中大部分采用 ODE 確定性采樣 , 小部分用 SDE 探索 , 以加速訓練同時保證探索 。 策略梯度優化: 在雙層 MDP 中 , 策略輸出由與環境交互的動作轉為流匹配模型輸出的速度場 , 可直接進行策略梯度優化 。
Critic 設計

針對 π0 和 π0.5 模型 , πRL 在應用 PPO 算法微調時 , 探索了兩種 Actor-Critic 架構:

Action Expert Critic(適用于 π0)
VLM 僅包含圖像和語言信息 , 機器人狀態與噪聲動作一同送入 Action Expert 。 Critic 接 Action Expert 隱藏層輸出 , 并通過對全部噪聲步取平均獲得穩定的估計 。
VLM Critic(適用于 π0.5)
VLM 融合全部輸入(圖像、語言、機器人狀態) 。 Critic 直接接 VLM 隱藏層輸出 。

圖 3: 我們系統性地探索了兩種 Critic 設計思路:一種將 Critic 部署在動作模型(Action Expert)之后 , 另一種則將 Critic 直接接入視覺語言模型(VLM)后 。

實驗結果
πRL 在常用 VLA 評測集 LIBERO 及 ManiSkill 自建多任務集上驗證了其有效性 。

LIBERO:少樣本 SFT+RL 范式超越全數據 SFT!

πRL 讓 π0(few-shot)平均成功率從 57.6% 提高到 97.6% , π0.5(few-shot)從 77.1% 提高到 98.3% , 超越全數據 SFT 訓練的流匹配 VLA 表現 。


圖 4:LIBERO 測試平臺下的性能對比

與此同時 , 在 LIBERO-Long 長時序任務上 , πRL 使 π0.5 單樣本 (one-shot) SFT 性能從 43.9% 提升到 94.0%!


圖 5: LIBERO-Long 任務 one-shot SFT 的 RL 收斂曲線

ManiSkill:驗證大規模多任務 RL 能力!

為了驗證 πRL 對大規模多任務的支持能力 , 我們在 Maniskill 中構造了涵蓋 4352 種抓取-放置任務組合 。 結果表明 , 通過在320個并行環境中進行訓練 , πRL(Flow-Noise)將 π0 成功率從 38.42% 提升到 78.83% , π0.5 成功率從 40.06% 提升到 90.85% 。


圖 6:ManiSkill Main任務中Pi05的RL收斂曲線

此外 , 我們還設計了 12 個與訓練環境不同的域隨機化測試環境 , 用于考察模型的泛化能力 。 在這些環境中 , 我們改變語言指令、物體類型、桌面紋理 , 或者在執行過程中移動物體、添加多個物體 , 來考察模型的泛化能力 , 并在每個環境中進行了 256 次測試來排除統計漲落的結果的影響 。 結果表明 , πRL 算法能夠顯著提升兩類模型在新環境下的泛化性能 。


圖 7:ManiSkill環境中對泛化能力的測試

我們還在實驗中觀測到 , 相比監督微調 , 強化學習可以使得模型更少犯錯 , 模型完成操作任務的平均步數可以顯著減少 , 直到逼近專家數據水平:


圖 8:強化學習提高完成任務的效率

消融研究
除上述對比試驗外 , 論文還包含大量消融實驗 , 為后續基于流匹配 VLA 的 RL 研究積累了經驗 。

算法對比(PPO vs. GRPO): 使用流匹配 VLA , PPO 在最終性能和訓練穩定性上均優于 GRPO 。

圖 9:PPO 和 GRPO 算法的收斂曲線對比

MDP 對比: Flow-Noise(單層 MDP)收斂略快 , Flow-SDE(雙層 MDP)單步更新更快(與去噪步數解耦) , 最終性能接近 。
隨機性注入對比: 可學習噪聲(Flow-Noise)與固定噪聲(Flow-SDE)兩種策略 , 在相同 MDP 框架下性能類似 , 證明兩類噪聲注入均有效 。
Critic 設計:Critic 接在 VLM 后略優于接在 Action Expert 后 , 且更穩定 。
更多技術細節和消融結果詳見論文 。

未來展望
πRL 未來將繼續發布更多結果 , 包括:

更多基準測試集: 接入更多仿真環境 , 進行更豐富的評測 。 提升 OOD 泛化能力: 針對強化學習帶來的泛化增益展開更深入分析 。 真實機器人部署: 推動 πRL 框架從仿真走向真實物理機器人 , 驗證其實際應用價值 。

    推薦閱讀