首個零樣本跨本體泛化開源具身模型:智源RoboBrain-X0技術解析

首個零樣本跨本體泛化開源具身模型:智源RoboBrain-X0技術解析

文章圖片

首個零樣本跨本體泛化開源具身模型:智源RoboBrain-X0技術解析

文章圖片

首個零樣本跨本體泛化開源具身模型:智源RoboBrain-X0技術解析

文章圖片

首個零樣本跨本體泛化開源具身模型:智源RoboBrain-X0技術解析

文章圖片

首個零樣本跨本體泛化開源具身模型:智源RoboBrain-X0技術解析

機器之心發布
機器之心編輯部
為具身智能行業提供了一個可復用、可擴展的通用基座 , 同時開源訓練數據集 。

今天 , 北京智源人工智能研究院(BAAI)正式開源 RoboBrain-X0 , 一個能夠在零樣本泛化、輕量微調條件下 , 驅動多種不同真實機器人完成復雜任務的具身智能基座大模型 。 其核心突破在于:用統一的動作空間與分層任務拆解 , 實現了「一個基座模型 , N種身體」 , 為通用具身智能提供一條切實可行的路徑 。
RoboBrain-X0 源自 RoboBrain 的多模態基座能力 , 在 RoboBrain 2.0 數據基礎上 , 進一步融合了真實機器人動作數據 。 通過統一建模視覺、語言與動作 , 它實現了跨本體的泛化與適配 , 具備從感知到執行的一體化能力 。
據智源團隊公開的評測 , RoboBrain-X0 在多個主流機器人本體上的真機實驗顯示:
零樣本遷移能力突出:僅靠統一預訓練 , 模型即能在不同本體完成pickplace等任務 , 指令跟隨與場景切換表現穩定 。 小樣本微調效應顯著:在每個任務/域僅提供50條樣本的微調情況下 , RoboBrain-X0 的泛化表現已超過行業主流基線(如π0) , 尤其在混合本體、復雜場景下 , 少量微調即可具備針對復雜目標任務的拆解和執行能力 , 展現出遠高于傳統模型的數據效率和遷移性 。 控制一致性強:不同本體在執行同一高層任務時 , 生成的動作原語序列高度一致 , 實際物理執行表現可靠 。這些結果意味著 , RoboBrain-X0 不僅是理論上的「通用基座」 , 而且已在工程實踐中邁出了從單點突破到規?;涞氐年P鍵一步 。

作為新一代跨本體基座大模型 , RoboBrain-X0 突破對單一機器人體系的依賴 , 實現異構本體統一建模 , 并具備實用級 zero-shot pickplace 泛化能力與輕量微調下的復雜任務拆解能力 。

RoboBrain-X0 Github 地址: https://github.com/FlagOpen/RoboBrain-X0 RoboBrain-X0多芯片版本地址FlagRelease: https://huggingface.co/FlagRelease/RoboBrain-X0-FlagOS 核心訓練數據集: https://huggingface.co/datasets/BAAI/RoboBrain-X0-Dataset RoboBrain 2.0 技術文檔: https://arxiv.org/abs/2507.02029本體泛化困境:
通用具身智能的核心阻礙
隨著機器人逐步走出實驗室 , 走進家庭、工廠、公共空間 , 行業也面臨著一個日益突出的難題:盡管模型在單一機器人上的能力日新月異 , 但這種智能卻像一座座孤島 , 難以遷移和擴展 。
問題的根源在于 , 當前主流模型普遍采用在單一本體上端到端訓練的范式 。 然而 , 不同品牌、不同結構的機器人 , 其動作空間、自由度和動力學特性千差萬別 , 導致模型的智能被其物理載體(Embodiment)牢牢「鎖死」 。
即便有了一個很好的具身大腦模型 , 每適配一種新硬件 , 都需要重新收集數據進行微調 , 更深層次上 , 這種模式還造成了嚴重的數據壁壘 , 不同本體間的數據難以復用 , 難以形成類似大語言模型領域的「數據飛輪」效應 。
打破「本體枷鎖」 , 讓智能在不同物理形態間無縫流轉 , 已成為整個領域從單點炫技邁向全面普惠的決定性關隘 。
實現「語義一致、控制一致、執行一致」
三層對齊
面對這一制約 , 智源研究團隊的思路是 , 將一個高度依賴硬件的控制問題 , 轉化為了一個本體無關、直接描述物理世界交互的目標問題 。


第一步 , 是統一「動作空間」
RoboBrain-X0 將不同類型機器人(無論是機械臂、移動底盤還是雙臂系統)的控制信號 , 全部映射到同一個動作空間 , 即末端執行器(End-Effector , EE)在三維空間中的位姿(位置與姿態) 。 這一抽象方式 , 直接跨越了各類機器人在自由度、結構定義上的巨大差異 , 無論底層關節、驅動方式如何變化 , 所有本體在 RoboBrain-X0 看來 , 都在用同一種「動作語言」進行感知、學習與協作 。
其次 , 是離散化「動作詞匯」
智源團隊進一步引入「動作Tokenizer」機制 , 將原本連續且高維的物理操作軌跡 , 離散成一組可遷移的動作原語token 。 這些token基于分組殘差量化(GRVQ) , 分別對位置、旋轉、夾爪等多個維度進行壓縮和抽象 。 這樣 , 原本冗長復雜的控制指令被濃縮為簡明的token序列 , 模型能夠用更少的計算資源表達長時序行為 , 大幅提升訓練與推理效率 , 并增強了長時控制的穩定性 。
最終 , RoboBrain-X0 實現了跨本體的知識和能力共享
機械臂、移動底盤、雙臂系統等不同本體都能共享同一套操作原語 , 模型可以在不同類型機器人采集的數據上進行「混合本體數據訓練」 , 并從中抽取出具備普適性的物理知識與操作策略 。 過去難以遷移的跨本體能力 , 如今有了工程化落地的可能 。
分層規劃與推理:
讓「意圖到動作」可泛化、可遷移
RoboBrain-X0 的另一項關鍵創新 , 是將「語言到動作」這一長期困擾具身智能的難題 , 拆解為分層、可解釋的推理鏈路 。 通過模擬人類的分步決策過程 , 讓復雜任務的理解與執行變得更加高效、易于泛化 。
高層:意圖解析與任務分解 。 模型首先讀取自然語言指令(如「把蘋果放進籃子里」) , 理解整體目標 , 并自動分解為一系列語義明確的子任務(如「找到蘋果」「拿起蘋果」「放進籃子」) 。中層:動作原語推理 。 每個子任務進一步被轉化為動作原語token序列 。 這些token代表「接近」、「抓取」、「放置」等可遷移的基礎操作 , 成為具身智能跨本體泛化的關鍵「詞匯」 。底層:控制信號解碼 。 最終 , 動作原語token被解碼為具體的底層控制信號 , 如增量末端位姿和夾爪開合指令 。 這一層將抽象的意圖轉化為各類本體可直接執行的物理操作 。在訓練階段 , 團隊采用分階段、多模態的數據策略:
第一步 , 通過大規模視頻+語言數據(無動作配對)強化模型的空間理解與語義規劃能力; 第二步 , 逐步引入動作軌跡配對數據 , 建立從任務語義到物理控制的精準映射; 第三步 , 針對遮擋、干擾、新物體等現實難題 , 用小樣本微調實現定向強化與快速適應 。
推理時 , 模型同樣先完成高層的任務拆解與子任務鏈生成 , 再通過動作Tokenizer , 將抽象的動作序列穩定映射為不同本體可執行的控制信號 。 每一級推理都受到專門的數據監督和一致性約束 , 確保模型在異構機器人、復雜場景下都能輸出語義一致、行為穩定的策略 。這一機制不僅極大提升了模型的泛化能力 , 也大幅縮短了新任務、新環境的適應周期 。
不止模型 ,
同步開源核心訓練數據集
RoboBrain-X0 卓越跨本體能力的背后 , 是堅實的數據基礎 。 伴隨此次模型開源 , 智源同步向全球開放了其核心訓練數據集 RoboBrain-X0-Dataset 。

該數據集的構建 , 旨在系統性地賦予模型兩大核心能力:
從通用感知到具身理解的數據:這一部分旨在讓模型「看懂」并「思考」物理世界 。 它在傳統的視覺問答(VQA)與推理數據之上 , 大量擴展了與物理交互強相關的任務 , 如物體 affordance 查詢(物體可以被如何操作)、軌跡生成和動作規劃 。 這些數據由開源成果與真實機器人采集共同組成 , 幫助 RoboBrain-X0 建立起從通用視覺語言到特定具身場景空間理解的橋梁 。 從多樣化動作到泛化技能的數據:這是實現跨本體泛化的核心 。 智源團隊整合了多源數據 , 形成了一個層次豐富的動作知識庫 。 首先 , 它引入了如 Agibot World 等高質量的開源動作數據作為基礎 。 其次 , 團隊通過與松靈、星海圖等廠商深度合作 , 同時結合自采 , 構建了一套體系化的真實數據采集與標注流程 。 這批數據不僅包含了直接的「指令-動作」對 , 還創新性地加入了「指令-子任務推理-動作」的樣本 , 專門用于訓練模型的長程任務分解、進度感知與動態決策能力 。該數據集的開源不僅在于提供數據本身 , 「所有數據均經過統一格式化與嚴格的質量控制 , 供研究者開箱即用」 , 智源團隊表示 , 「同時 , 我們也希望為社區提供一個可復現、可比較的跨設備評測基準 , 幫助推動具身方法論的快速迭代與對齊 , 最終加速具身智能技術從實驗室走向產業應用的進程」 。
實驗結果
為全面檢驗 RoboBrain-X0 的泛化能力與實際效能 , 智源研究團隊在權威的 Libero 仿真平臺和真實的機器人硬件上進行了一系列嚴格的評測 , 主要與當前業界領先的 π0-fast 和 π0 進行了比較 。 結果表明 , RoboBrain-X0 不僅在理論性能上取得突破 , 更在真實世界應用中展現出顯著優勢 。
在 Libero 仿真評測中 , RoboBrain-X0 在空間理解(Spatial)、物體交互(Object)、目標導向(Goal)和長程任務(Long)等所有關鍵維度上 , 其性能均超越了其他模型 , 綜合成功率高達 96.3% , 位列第一 。

Libero仿真評測結果
更為關鍵的是 , 在更具挑戰性的真機評測中 , RoboBrain-X0 的總體成功率達到了 48.9% , 幾乎是基線模型 π0(19.8%)的 2.5 倍 。 特別是在基礎抓放任務中 , RoboBrain-X0 甚至實現了 100% 的成功率 。

真機評測結果 , 在空間關系理解(任務1)、基礎抓放(任務2)、類別泛化(任務3)、多目標處理(任務4)任務上全面超越π0
這些數據證明 , RoboBrain-X0 所采用的跨本體通用架構 , 能夠有效將抽象的「任務意圖」轉化為精準的物理動作 , 其零樣本泛化能力并非停留在模擬層面 , 而是在復雜的真實物理世界中穩定、可靠 , 為具身智能從實驗室走向產業化落地奠定了堅實的基礎 。
邁向「一個基座 , N種身體」的新時代
RoboBrain-X0 在工程層面實現了基于一個統一的預訓練基座 , 在零微調條件下驅動多種異構真實機器人完成復雜任務 。
RoboBrain-X0 的開源 , 不僅為全球具身智能行業提供了一個可復用、可擴展的通用基座 , 也為智能機器人規模化落地打開了新局面 。
對開發者和學術界而言 , 研發重心將從底層的重復造輪子 , 轉向高層的創新與應用;對于產業鏈 , 機器人產品的智能能力將像安裝APP一樣實現快速適配 , 并能基于通用基座持續拓展;數據資產也將在更大范圍內流動和增值 , 促進軟硬件解耦和生態繁榮 。
當然 , 通用具身智能的終極目標仍然遙遠 。 RoboBrain-X0 在復雜人機交互、動態環境理解、自主學習等方向還需持續進化 。 但通過統一動作空間和分層推理框架的落地 , 「一個大腦 , 多種身體」已從愿景變為現實的工程起點 。
正如團隊所言:「我們希望 RoboBrain-X0 能成為連接不同身體、不同環境、不同任務的通用智能樞紐 。 」
從今天起 , 全球「具身智能基座」的競賽 , 或許才剛剛開始 。
【首個零樣本跨本體泛化開源具身模型:智源RoboBrain-X0技術解析】文中視頻鏈接:https://mp.weixin.qq.com/s/SWePKrAshDmr-Ux_vP1ovA

    推薦閱讀