大規模強化學習框架RLinf!清華、北京中關村學院、無問芯穹等開源_GPU|北京|it芯片|人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
機器之心編輯部
清華大學、北京中關村學院、無問芯穹聯合北大、伯克利等機構重磅開源RLinf：首個面向具身智能的“渲訓推一體化”大規模強化學習框架。

人工智能正在經歷從 “感知” 到 “行動” 的跨越式發展，融合大模型的具身智能被認為是人工智能的下一發展階段，成為學術界與工業界共同關注的話題。
在大模型領域，隨著 o1/R1 系列推理模型的發布，模型訓練的重心逐漸從數據驅動的預訓練 / 后訓練轉向獎勵驅動的強化學習（Reinforcement Learning RL）。 OpenAI 預測強化學習所需要的算力甚至將超過預訓練。與此同時，能夠將大規模算力高效利用的 RL infra 的重要性也日益凸顯，近期也涌現出一批優秀的框架，極大地促進了該領域的發展。

圖1 : OpenAI 在紅杉資本閉門會上的分享
然而，當前框架對具身智能的支持仍然受限。相比推理大模型這一類純大腦模型，具身智能領域存在大腦（側重推理、長程規劃，如RoboBrain）、小腦（側重執行、短程操作，如OpenVLA）及大小腦聯合（快慢系統，如pi 0.5）等多樣模型。
其次，具身智能除了包含Agentic AI的多步決策屬性外，他還有一個獨特屬性：渲訓推一體化。與工具調用智能體、瀏覽器智能體所交互的仿真器相比，具身仿真器通常需要高效并行物理仿真和3D圖形渲染等，因此當前主流仿真器通常采用GPU加速，耦合多步決策帶來了算力和顯存競爭的新挑戰。
總的來說，具身智能領域不僅繼承了推理大模型和數字智能體的難點，同時還引入了新的渲訓推一體化特征，再加上具身智能模型尚未收斂，對框架的靈活性、高效性和易用性提出挑戰。

圖 2：推理大模型與具身智能體對比圖
在這樣的背景下，清華大學、北京中關村學院和無問芯穹聯合推出了一個面向具身智能的靈活的、可擴展的大規模強化學習框架 RLinf 。

代碼鏈接：https://github.com/RLinf/RLinf Hugging Face鏈接：https://huggingface.co/RLinf 使用文檔鏈接：https://rlinf.readthedocs.io/en/latest/RLinf 的 “inf” 不僅代表著 RL “infrastructure” ，也代表著 “infinite” scaling ，體現了該框架極度靈活的系統設計思想。
RLinf 的系統可以抽象為用戶層（統一編程接口）、任務層（多后端集成方案）、執行層（靈活執行模式）、調度層（自動化調度）、通信層（自適應通信）和硬件層（異構硬件）6 大層級。相比其他框架的分離式執行模式， RLinf 提出的混合式執行模式，在具身智能訓練場景下實現了超 120% 的系統提速， VLA 模型漲幅 40%-60% 。同時， RLinf 高度靈活、可擴展的設計使其可快速應用于其他任務，所訓練的 1.5B 和 7B 數學推理大模型在 AIME24、AIME25 和 GPQA-diamond 數據集上取得 SOTA 。

圖 3：RLinf 系統及亮點介紹
設計 1：采用基于 Worker 的統一編程接口，
利用微執行流實現宏工作流，實現一套代碼驅動多種執行模式
當前已有強化學習框架通常采用兩種執行模式：共享式（所有卡跑同一個組件）和分離式（不同的卡分配不同的組件）。然而，這兩種模式在具身智能 “渲訓推一體” 的特點下都存在局限性。主要是：由于具身智能體多步決策的屬性，模型（Actor）要和仿真器（Simulator）頻繁交互，而當前框架一方面不支持仿真器狀態快速卸載和加載，另一方面若用共享式需要頻繁加載卸載組件，切換開銷大，嚴重降低系統效率。
因此，目前已有的框架在這個場景下僅支持分離式訓練，但分離式采用 on-policy 算法訓練時資源閑置率高，系統氣泡比較大。 RLinf 針對這一問題，提出了混合式執行模式，如圖 4 所示，這種模式兼具分離式和共享式的優勢，再配合上細粒度流水設計，使得系統幾乎無氣泡，顯著提升了系統運行效率。

圖 4 : 共享式、分離式和混合式執行模式對比
然而，要想實現一套代碼驅動多種執行模式（即無需更改代碼，通過配置參數即可實現分離、共享或混合）是不容易的，一種標準的解決方案是構建計算流圖，但會導致編程靈活性降低， debug 難度直線上升，所以當前已有框架通常只支持一種模式（分離或者共享），引入新的執行模式需要大量的系統開發。
為此， RLinf 提出了創新的宏工作流到微執行流的映射機制（Macro-to-Micro Flow ， M2Flow），實現從組件級而非任務級進行調度。 M2Flow 允許用戶使用過程式編程方式靈活構建復雜訓練流程，解決傳統計算流圖構建編程靈活性低的問題，同時能夠將過程式的訓練流程靈活映射到底層不同的執行模式上，為不同的訓練流程（如 RLHF、RLVR 等）選擇最優執行模式（配合自動調度模塊）。
因此，該映射機制兼具過程式編程（Imperative Programming）的靈活性、易用性、易調試性和聲明式編程（Declarative Programming）的編譯優化能力。具體而言， RLinf 采用基于 Worker 的統一編程接口，允許用戶將訓練流程中的不同組件，如模擬器、訓練推理引擎，封裝成不同 Worker ，然后通過過程式編程將這些 Worker 串起來形成完整的訓練流程。 M2Flow 通過細粒度控制微執行流，即控制每個 Worker 的運行 GPU、執行的批大小、執行時機等，實現極度靈活的執行模式。
總結來說， RLinf 使用戶能夠以高度可適配的方式編排組件（Actor、Critic、Reward、Simulator 等），組件可以放置在任意 GPU 上，并自動配置不同的執行模式，目前支持 3 種執行模式：
共享式（Collocated Mode）：用戶可以配置組件是否同時常駐于 GPU 內存，或通過卸載 / 重新加載機制交替使用 GPU 。分離式（Disaggregated Mode）：組件既可以順序運行（可能導致 GPU 空閑），也可以以流水線方式執行，從而確保所有 GPU 都處于忙碌狀態。混合式（Hybrid Mode）：進一步擴展了靈活性，支持自定義組合不同的放置形式。典型案例是 Generator 和 GPU-based Simulator 執行分離式細粒度流水，二者與 Inference 和 Trainer 執行共享式。設計 2: 面向具身智能大小腦不同訓練需求，
采用全新的低侵入式多后端集成方案，兼顧高效性和易用性
如前文提到，具身智能領域的特點是：大小腦同時存在，且該領域仍處在蓬勃發展期，技術路線尚未收斂。因此為了更好地支持具身智能不同用戶（如具身大小腦研究人員）的需求， RLinf 集成了兩套后端：
Megatron + SGLang/vLLM：針對已收斂的模型架構（如具身大腦 VLM），支持已適配模型的快速接入，是大規模集群訓練的首選模式。在這一模式下， RLinf 也采用了全新的低侵入式訓推引擎集成方式，有助于快速集成訓推引擎的更新版本（用戶可嘗試切換 SGLang 版本，方法見說明文檔 Advanced Feature 章節），進而能夠啟用 Megatron 和 SGLang/vLLM 的所有優化能力，如 5D 并行等。 FSDP + Hugging Face：針對未收斂的模型架構（如具身小腦 VLA），支持 Hugging Face 模型開箱即用無需適配，是快速小規模驗證的首選模式。這一模式對于算力受限及新手用戶比較友好，特別為具身智能從業者打造。
圖 5：RLinf 集成兩套后端
同時 RLinf 也支持多項來自一線從業者的剛需，包括 LoRA 訓練，斷點續訓，以及適應不同網速用戶的訓練可視化（Tensorboard、WB、SwanLab）等。此外， RLinf 也正在集成 SFT 模塊，致力于提供一站式的服務，通過一套代碼滿足多樣化的訓練需求。
設計 3: 設計面向強化學習的自適應通信庫和自動化調度模塊，
提升訓練穩定性和系統效率。
自適應通信機制：
強化學習存在多個組件，且這些組件之間存在大量的數據交互。靈活、高效的互通信是支撐強化學習框架高效運行的關鍵，也是框架可擴展性的重要保證。因此， RLinf 特別設計了一套面向強化學習的通信庫，其中主要包含四項優化技術：自適應 CUDAIPC/NCCL 通信、負載均衡傳輸隊列、多通道并發通信機制、快速通信重配置。
自適應 CUDAIPC/NCCL 通信：無需用戶配置，根據兩個互通信組件所在 GPU 自動選擇使用 CUDAIPC 通信還是使用 NCCL 通信，即兩個組件位于同一個 GPU 上時使用 CUDAIPC ，位于不同 GPU 上時使用 NCCL 。負載均衡傳輸隊列：可以根據上一個組件在不同 GPU 上所產生數據量的大小，在發送給下一個組件的不同 GPU 時做數據量負載均衡，使得下一個組件不同 GPU 的計算量接近，提升系統運行效率。
圖 6：負載均衡傳輸隊列
多通道并發通信：使用多 CUDA stream 以及多網絡流并發的通信，避免隊頭阻塞（Head-of-Line Blocking），降低通信延遲。快速通信重配置：該功能主要面向大規模集群訓練，是實現下文秒級動態擴縮的支撐技術之一，可有效解決通信容錯和通信調整的問題。自動化調度模塊：
大規模強化學習框架的優化目標是盡量減少系統資源閑置。已有框架通常采用人為指定資源配置的方案，依賴于人工經驗，容易造成系統資源浪費， RLinf 設計了一套自動調度策略，可以針對用戶的訓練流以及用戶所使用的計算資源，選擇最優的執行模式。
具體而言， RLinf 會對各組件做自動化性能分析，獲得各組件對資源的使用效率和特征。然后，構建執行模式的搜索空間，該搜索空間描述了強化學習算法各組件對計算資源的分配復用關系，包括 “時分復用”、“空分復用” 以及二者結合的資源分配方案；在這樣的建模下， RLinf 的自動化調度不僅支持已有強化學習框架中 “共享式” 和 “分離式” 的典型資源分配方式，還支持二者結合的混合分配方案的建模分析。
最后，基于上述性能分析數據，在該空間中搜索出最優的執行模式。除此之外，該自動調度策略還集成 “秒級在線擴縮容（Online Scaling）” 能力， 70B 模型只需 1 秒即可完成 5D 并行動態擴縮，而傳統方案需十幾秒甚至更久。該功能及相關論文將于 10 月上線開源版本。基于該技術可進一步實現運行時組件間計算資源的動態調度，配合細粒度流水設計，可以在保證算法 on-policy 屬性的前提下進一步壓縮系統氣泡率，且顯著提升訓練穩定性。
RLinf 性能快覽
具身性能（采用 FSDP+HuggingFace 后端測試）：
在應用上，與其他框架相比， RLinf 的特色在于 Vision-Language-Action Models (VLAs)+RL 的支持，為研究人員探索 VLAs+RL 領域提供了良好的基礎算法性能及測試平臺。 RLinf 支持了主流的 CPU-based 和 GPU-based 仿真器（具體平臺見說明文檔），支持了百余類具身智能任務，集成了主流的具身大模型 OpenVLA、OpenVLA-OFT、Pi 0 。
特別地，團隊率先實現了對 Pi 0 的大規模強化學習微調，相關算法及論文將在 9 月底發布。在量化指標上，以 Maniskill3（典型的 GPU-based Simulator ）為例進行測試， RLinf 采用混合式結合細粒度流水的執行模式。相比其他框架的分離式執行模式，系統效率顯著提速 120% 以上（圖 7）。
OpenVLA 及 OpenVLA-OFT 在 Maniskill3 自建 25 個任務 [1
中采用 PPO 算法和適配具身的 GRPO 算法訓練后，成功率曲線如圖 8 所示，可以看到模型成功率可以從 SFT 后的 30%-50% 提升至 80%-90% ，漲幅 40%-50% 以上。
在公開測試平臺 LIBERO 的 4 個場景中， OpenVLA-OFT 采用 RLinf 適配具身的 GRPO 算法訓練后，平均成功率達到 97.3% ，相比 SFT 模型漲幅 62.4% 。
團隊前序工作曾探討 RL 和 SFT 對 VLA 泛化性提升的不同之處 [1
， RLinf 將研究進一步拓展至大規模場景下，助力探索具身智能領域的 RL Scaling Law 。相關模型已開源在 https://huggingface.co/RLinf ，歡迎下載測試。

圖 7：RLinf 在 “渲訓推一體化” 任務訓練中顯著提速 120%+

圖 8：OpenVLA、OpenVLA-OFT 在 Maniskill3 自建 25 個任務中采用 PPO 算法及具身版 GRPO 算法的訓練曲線

表 1：OpenVLA-OFT 在 LIBERO 中采用具身版 GRPO 算法的測評結果
推理性能（采用 Megtatron+SGLang 后端測試）：
面向具身智能是 RLinf 的應用特色，但 RLinf 的系統設計思想不僅限于具身智能，靈活、可擴展的設計理念使得其可以快速支持其他應用，體現了其通用性。
以 RLinf 支持的推理大模型訓練為例，團隊集成優化后的 GRPO 算法 [2
進行了數學推理大模型的訓練，數據集為 AReal-boba 數據集 [3
，基座模型為 DeepSeek-R1-Distill-Qwen 。在三個測試集（AIME24、AIME25、GPQA-diamond）中進行測評， 32 個樣本取平均， Pass@1 測試結果如表 2 和 3 所示， RLinf-math-1.5B 和 RLinf-math-7B 在三個測試集上均取得 SOTA 性能。
（注：表格中的模型均來自 HuggingFace 開源模型，統一測試腳本 https://github.com/RLinf/LLMEvalKit）
相關模型已開源在 https://huggingface.co/RLinf ，歡迎下載測試。

表 2：1.5B 數學推理大模型在多個數據集的測評結果

表 3：7B 數學推理大模型在多個數據集的測評結果
Last but not least
考慮到框架的易用性， RLinf 提供了全面且系統化的使用文檔。 RLinf 在開發之初的目標就是開源，因此讓每一個用戶能夠理解、使用和修改是設計原則之一，也是一個優秀開源框架必備的屬性。團隊采用公司級代碼開發流程，確保文檔內容覆蓋從入門到深度開發的各層次需求。此外， RLinf 還提供完整的 API 文檔與集成 AI 問答機器人支持，以進一步提升開發體驗與支持效率。

圖 9：RLinf 文檔鏈接 https://rlinf.readthedocs.io/en/latest/
RLinf 團隊的開發成員具有交叉研究背景，包含從系統到算法到應用的技術全棧，例如系統架構設計、分布式系統、大模型訓練推理加速、強化學習、具身智能、智能體等。正是由于這樣的交叉背景，使得團隊能夠從應用需求驅動算法設計，算法指導系統設計，高效系統加速算法迭代，體現了大模型時代下新型科研形態。未來 RLinf 團隊也將持續開發和維護，具體 Roadmap 見 Github 網站。
RLinf 項目地址 https://github.com/RLinf/RLinf
最后，誠摯地邀請大家體驗 RLinf 框架，并且與我們交流技術觀點與潛在合作機會。同時， RLinf 團隊持續招聘博士后、博士、碩士、研究員、工程師及實習生，歡迎投遞簡歷，與我們共同推進下一代強化學習基礎設施的建設與發展。
聯系方式：zoeyuchao@gmail.com yu-wang@mail.tsinghua.edu.cn
參考資料：
[1
Liu Jijia et al. \"What can rl bring to vla generalization? an empirical study.\" arXiv preprint arXiv:2505.19789 (2025).
[2
https://github.com/inclusionAI/AReaL
【大規模強化學習框架RLinf!清華、北京中關村學院、無問芯穹等開源】[3
https://huggingface.co/datasets/inclusionAI/AReaL-boba-Data

大規模強化學習框架RLinf!清華、北京中關村學院、無問芯穹等開源

推薦閱讀

王者榮耀馬可波羅動作怎么獲得?王者榮耀五周年祈愿馬可波羅動作獲得攻略

口味重的家常菜有哪些

我的世界盾牌怎么做方法一點不復雜

布谷鳥的特點

小池的作者是誰是哪代詩人小池原文及翻譯

夢見去廟里拜菩薩夢見去廟里拜菩薩什么意思

少女前線春節裝扮怎么樣 cz75春節換裝金蓮花開獲取方式

做眼袋吸脂有什么危害

2022國慶來重慶旅游要不要提供核酸證明？

美圖秀秀如何給圖片加邊框

一歲孩子的輔食食譜及做法

細胞工程，為什么基因工程中當受體細胞是植物細胞時一般用體

縮水的牛仔褲怎么拉回去

通信地址是什么意思

2017中國縣城房價走勢,小縣城房價6千左右

瘋狂聯盟戰爭之王怎么解鎖,戰錘3》恐虐戰役機制介紹