物理AI的「原生」時刻:原力靈機發布具身大模型DM0

物理AI的「原生」時刻:原力靈機發布具身大模型DM0

文章圖片

物理AI的「原生」時刻:原力靈機發布具身大模型DM0

文章圖片

物理AI的「原生」時刻:原力靈機發布具身大模型DM0

文章圖片

物理AI的「原生」時刻:原力靈機發布具身大模型DM0

文章圖片

物理AI的「原生」時刻:原力靈機發布具身大模型DM0


https://mp.weixin.qq.com/s/yUg1p6dlb-MdrDNo0I3jFg?click_id=1
當前 , 大語言模型(LLMs)和視覺語言模型(VLMs)在語義領域的成功未能直接遷移至物理機器人 , 歸根結底在于其互聯網原生的基因 。 主流的 “預訓練 - 后適配”(Pretrain-then-Adapt)的范式依賴互聯網靜態數據 , 導致模型先天缺失物理基?。 ≒hysical Grounding) , 在落地時往往顧此失彼:要么導致操作與導航的模塊割裂 , 要么引發災難性遺忘 , 在追求控制精度的過程中丟失了核心的通用推理能力 。

圖 1:DM0 在異構語料庫上進行預訓練 —— 無縫整合互聯網、自動駕駛和具身操作數據 。
【物理AI的「原生」時刻:原力靈機發布具身大模型DM0】為了打破這一局限 , 原力靈機聯合階躍星辰提出一種名為 DM0 的具身原生(Embodied-Native) VLA 模型 , 其工作核心在于「從 0 開始」:從訓練的最初階段 , 就采用統一的視角 , 將具身傳感器與運動數據視為與語言、視覺數據同等重要的一等公民 。
作為一個端到端模型 , DM0 可以無縫統一機器人的精細操作(Manipulation)與移動導航(Navigation) 。 在 RoboChallenge 真實世界基準測試 Table 30 中 , DM0 在單任務(Specialist)和多任務(Generalist)兩種設置下均以顯著優勢領先現有 SOTA 模型 , 展現出極其強大的物理世界泛化與執行能力 。

論文名稱: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI 論文鏈接:https://arxiv.org/html/2602.14974v1 DM0 GitHub : https://github.com/Dexmal/dexbotic DM0 Hugging Face: https://huggingface.co/collections/Dexmal/dm0方法與架構:多源混合訓練與空間腳手架
真正的通用機器人需要一個具身原生模型 , 這要求模型必須調和異構數據源 —— 涵蓋互聯網語料、自動駕駛日志以及機器人操作軌跡 , 學習既具有豐富語義又具備物理可執行性的表征 。 為此 , DM0 并未采用簡單的端到端多層感知機映射 , 而是設計了一套精妙的多源混合訓練與具身空間腳手架(Embodied Spatial Scaffolding)架構 。
整體模型架構

圖 2:DM0 架構圖 , 包含 VLM 主干和基于流匹配(Flow Matching)的動作專家 。
DM0 的核心架構由兩個主要組件構成:
1.VLM 主干網絡: 基于 Qwen3-1.7B 大語言模型構建 , 并增加了一個強大的感知編碼器 PE , 負責多模態感知、語義理解以及在機器人環境中的具身推理 。 輸入的多視角圖像會被調整為 728×728 的高分辨率 , 經過感知編碼器處理后 , 提取出細粒度的視覺特征 。
2. 動作專家: 這是一個基于流匹配的連續控制模塊 。 它不直接從圖像提取特征 , 而是接收來自 VLM 主干網絡提取的鍵值(KV)緩存作為條件輸入 , 從而生成平滑、精確的連續控制動作 。
在推理時 , DM0 支持兩種模式:既可以直接從多模態觀察和指令中預測連續動作;也可以先通過 VLM 生成文本形式的具身推理過程 , 隨后將這些推理文本作為條件 , 引導動作專家輸出動作 。
多源混合訓練
聯合優化語言目標與連續控制目標往往會破壞預訓練 VLM 中保存的語義表征 。 為了解決這個問題 , DM0 采用了一種受知識隔離(Knowledge Insulation)啟發的混合梯度策略 。
具體而言 , 在針對具身機器人數據進行訓練時 , 動作專家的梯度不會回傳給 VLM 主干網絡 。 這種解耦操作有效防止機器人動作數據對 VLM 通用常識的侵蝕 。 與此同時 , VLM 仍然會繼續使用非具身數據進行更新 , 不斷優化其通用語言和視覺理解能力 。 此外 , VLM 還被監督預測離散的動作 Token , 促使它編碼出有利于下游連續動作預測的動作相關語義 。
具身空間腳手架
為進一步彌合高級語言推理與低級動作控制之間的鴻溝 , 本文創新性提出一套分層預測框架 —— 具身空間腳手架 。 在訓練中 , 模型被要求順序執行以下輔助任務 , 構建出空間維度的思維鏈(Spatial CoT):
1. 子任務預測: 將復雜的總指令分解為一系列可解釋、易管理的子步驟 。
2. 目標邊界框預測: 在視覺觀察中預測出目標物體或目標區域的 2D 邊界框 。
3. 末端執行器軌跡預測: 預測機器臂末端在主攝像機視圖下的未來 2D 軌跡 。
4. 離散動作預測: 預測代表機器人控制命令的離散 Token 。
這種設計如同為模型搭建一層層腳手架 , 引導其從抽象的語義意圖 , 逐步過渡到以物體為中心的空間定位 , 再到動作相關的幾何軌跡 , 最終落地為底層控制 。 這種信息瓶頸機制不僅過濾了任務無關的噪聲 , 還極大地限制了動作策略的解空間 。
三階段訓練配方:從互聯網原生走向具身原生

圖 4:預訓練、中期訓練、后期訓練的數據混合比例 。
DM0 的強大不僅源于架構 , 更歸功于其精心設計的三階段訓練 pipeline , 總計消耗了高達 1.2T Token 的數據 。 預訓練階段在大規模的互聯網、自動駕駛和具身數據上建立強大的多模態感知;中訓練階段加入動作預測 , 并在跨多種機器人平臺的具身數據上把模型錨定為可執行的控制 , 同時保留通用對話能力;后訓練階段則收窄所使用的本體與數據范圍 , 以便在少數目標平臺上穩定視覺 - 運動對齊 。
Pretraining
這個階段 , 模型在一套極其豐富的異構語料庫上進行聯合優化 , 參數全部解凍 。 數據不僅包含傳統的網頁文本、教育文獻、OCR 數據和通用 VQA , 還極具前瞻性地引入 GUI 界面數據、自動駕駛深度檢測數據以及大量的具身數據 。 通過 1.13T Token 的大規模洗禮 , 模型在獲得語義知識的同時 , 隱式地掌握了物理先驗(如空間關系、深度結構、物理動力學) 。
Mid-Training
中期訓練階段引入了動作預測模塊 , 數據規模約為 200M 樣本 。 此時 , 混合梯度策略(知識隔離)開始生效 。 數據混合了跨形態的單臂 / 雙臂機器人軌跡(如 Franka、UR5、ALOHA)、仿真環境數據以及視覺 - 語言指令微調數據(如 Cambrian-10M、LLaVA-OV) 。 為了增強模型的長程規劃能力 , 本文還專門構建了具身推理(ER)數據集 , 包含任務分解、進度估計等訓練項 。
Post-Training
后期訓練階段旨在將模型對齊到實際部署的硬件上 。 使用約 50M 樣本 , 將目標縮小至少數特定的真實機器人平臺 。 減少不同形態機器人的分布方差 , 使得模型能在目標機械臂上建立極其穩定的視覺 - 運動映射 。
實驗結果:在 RoboChallenge 上的碾壓級表現
為全面驗證 DM0 的物理世界交互能力 , DM0 在極具挑戰性的 RoboChallenge 真實世界基準 Table30 上進行評估 。 該基準包含 30 個需要多步推理和精確連續控制的長視野桌面操作任務 。
單任務(Specialist)評估

表 1:RoboChallenge Table30 上 SOTA 開源 VLA 模型的對比結果 。
如表 1 所示 , DM0-Specialist 模型在僅有 2.4B 參數量的情況下 , 在 UR5、Franka、ARX5、ALOHA 等多個機器人平臺上 , 全面超越參數量更大的 Spirit-v1.5 (4B)、GigaBrain-0.1 (3B) 、pi0.5 (3B) 等 SOTA 開源模型 , 取得了 62.00% 的平均成功率 。
值得注意的是 , 在諸如 “在籃子中整理水果”、“插網線” 和 “掃垃圾” 這類長時序、強交互的復雜任務中 , DM0 甚至取得了 100% 或 80% 這樣接近完美的成績 , 而其他基準模型在這些任務上經常徹底失?。?%) 。
多任務(Generalist)評估

表 2:RoboChallenge Table30 上當前最佳的開源 VLA 多任務模型的對比結果 。
在更考驗模型跨任務適應能力的多任務中(一個模型同時掌握某平臺下的所有任務) , DM0-Generalist 同樣展現出壓倒性優勢 , 取得了 37.3% 的平均成功率和 49.08 的任務得分 , 大幅超越了之前最強的 pi0.5 模型的 17.67% 和 31.27;特別是在 “堆疊彩色方塊”、“將鞋子放在鞋架上” 等需要高精度空間理解的任務中 , DM0 依然能夠打出滿分 。

表 5:DM0 具備在具身場景中預測子任務的思維鏈(CoT)能力 。
除了卓越的動作執行能力 , 由于實施了知識隔離 , 處于 Mid-Training 階段的 DM0 依然完美保留了多模態對話能力 。 在具身場景的物體檢測、復雜圖表 OCR 識別、甚至是作為手機智能體(Mobile Agent)識別外賣按鈕的任務中 , 它也能對答如流 。
結論與未來展望
DM0 從根本上重新思考了通用機器人策略的開發路徑 。 它證明了與其讓純語義的大語言模型在事后去適應機器人身體 , 不如在預訓練的萌芽期 , 就將物理世界的感知與多源數據相融合 , 構建一個真正意義上的具身原生 VLA 模型;其獨創的混合梯度訓練保護了認知不退化 , 而具身空間腳手架則賦予了模型三維空間的推理直覺 。
盡管 DM0 已經樹立了一個強大的基準 , 但這僅僅是 Physical AI 邁出的一小步 。 論文的最后 , 作者團隊也指出了幾個極具潛力的演進方向:
1. 具身原生的 Scaling Laws: DM0 目前依然是一個 2B 級別的輕量化模型 。 未來 , 團隊計劃將其擴展至 7B 甚至 30B 規模 , 并吞吐更為龐大的仿真 + 真實的混合數據集 , 以期觀察到在物理推理層面的涌現能力 。
2. 更廣闊的多模態感知: 現實世界的物理交互絕不僅限于看和說 。 DM0 的預訓練階段未來有望直接整合觸覺反饋、音頻以及純深度信息 , 讓機器人即便在視野受限的動態環境中依然游刃有余 。
3. 長程推理與世界模型: 現有的空間腳手架雖然解決了部分規劃問題 , 但跨越超長時間維度的任務仍是業界難題 。 未來 , 若能將世界模型整合進 DM0, 賦予機器人在腦海中預演動作后果并進行長期規劃的能力 , 真正的全能型 Physical AI 將不再遙遠 。

    推薦閱讀