機器人長800個心眼？阿里達摩院開源具身新大腦，硅谷又坐不住了

2026-03-18 人工智能阿里巴巴硅谷達摩院機器人

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：好困桃子
【新智元導讀】硅谷還在苦等真機數據，中國隊已先一步交卷。 RynnBrain大腦橫空出世，通用具身智能時刻更近了。

2026年，具身智能的牌桌上早已是短兵相接。
幾乎每周，都有重磅炸彈被扔進場內：

波士頓動力全新Atlas令人驚艷的「360度轉頭殺」還在余音繞梁；
1X就祭出了1XWM「世界模型」，讓NEO在腦內學會模擬現實，把視頻生成內化為肌肉記憶；
而Figure更是通過下一代神經網絡Helix 02讓Figure 03實現了「全身協同運動」，行走、操作與平衡從此無縫融合。

在這一堆「秀肌肉」的神仙打架中，到底誰才配得上「最強大腦」？
現實中，干活干一半被打斷，再回頭很容易就會忘記「剛才干哪了」。
比如，這個機器人正忙著給桌上的食物分類，半路突然殺出一個「請幫我拿個面包」的指令。

只見它立刻「掛起」手頭動作，優先把面包遞給人類。

完事后，憑借「任務棧記憶」瞬間回神，無縫銜接，轉頭繼續處理剩下的水果。

更有意思的是，哪怕你當著它的面把盤子移走，它也能實時調整路徑，堅持「物歸原位」。

如果遇到更棘手的情況呢？
讓機器人在一堆「硬菜」面前，找出低卡的那一個。
這里，不僅考驗了對常識的理解，還需要用到「中文OCR」能力。
機器人一眼掃過配料表和文字標簽，大腦迅速計算，立馬就能精準找出最合適的那一個。

難度繼續升級。
下面是一個典型的「逼死強迫癥」題目：三個面包兩個盤，怎么分？
有趣的是，機器人憑借著「空間規劃」與「長程規劃」的能力，給出了一個絕妙的解法——「疊羅漢」。
【機器人長800個心眼？阿里達摩院開源具身新大腦，硅谷又坐不住了】
最后，就連機器人版「三仙歸洞」也來了！
把一瓶喝過的礦泉水，在它的面前瘋狂調換位置。
即便在如此眼花繚亂的變換中，機器人也能死死鎖住目標。
這背后，離不開強大的「物體記憶」與「復雜視頻理解」能力。

具身智能之戰，直面物理世界

放眼硅谷，目前主流有三條技術路線在角力。
第一條，是VLA（視覺-語言-動作）端到端流派。
Figure、π、Covariant押注的這條路最為火熱，主張用一個模型從感知直通動作。
但這套邏輯有個硬傷：
它極其依賴昂貴的真機數據，一旦遇到沒見過的場景，泛化能力直接斷崖下跌。

第二條，是「世界模型」流派。
它主張從像素級模擬物理世界，讓機器人在虛擬環境中大量試錯。
在英偉達杰出科學家Jim Fan看來， 2026年將是「大世界模型」（LWM）為機器人乃至多模態AI奠定基礎的真正元年。

而第三個流派，則選擇了另一種思路：
基于本身就具有泛化能力的VLM（視覺-語言模型），進一步造出通向物理世界的「具身大腦」。

它不強求一個模型解決所有問題，而是采用了仿生學的「大小腦」分層架構：

大腦：引入時空記憶和物理推理，負責「運籌帷幄」；
小腦：專注于具體的「沖鋒陷陣」。

這種架構巧妙利用了VLM海量數據的泛化優勢，同時通過「空間定位」讓思考過程落地，解決了以往模型只會在腦子里「空想」的幻覺問題。
開篇一些驚艷演示，正是來自這第三條路線的最新破局者——阿里達摩院剛剛亮出的RynnBrain 。
它讓機器人首次擁有了時空記憶和物理空間推理能力。

實測數據顯示，得益于這種分層架構的優勢：

RynnBrain在16項具身評測基準中，全面超越了Gemini Robotics ER 1.5、Mimo-Embodied、Cosmos Reason 2等前沿模型，部分核心能力提升幅度超30% 。

三條路線并非互斥，而是從不同維度逼近真相。
在這場通往通用機器人的馬拉松里，最優解雖未落定，但阿里達摩院已在無人區邁出了關鍵一步。

核心技術解密

答案沒有捷徑。
要造「大腦」，得先解決一個更基礎、卻也更棘手的問題：如何讓機器真正「看懂」物理世界？

前傳：為大腦裝上「火眼金睛」

現有的大模型雖然能用詩意的語言描述圖像，卻對物理世界中物體的材質（是軟是硬？）、功能（能坐還是能開？）、真實尺度（多高多寬？）完全「摸不透」。
為此，達摩院與浙大團隊打造了一雙極致的「眼睛」——RynnEC 。
RynnEC在基礎VLM之上，創新性地引入了專門的區域編碼器（Region Encoder）和基于SAM2的掩碼解碼器（Mask Decoder）。

這種設計讓模型不再局限于籠統地「看圖說話」，而是具備了區域級別的視頻交互能力，能夠精準鎖定局部物體。
為了訓練這雙「眼睛」，團隊設計了一套如同人類認知課程般的四階段訓練范式，從最基礎的掩碼對齊開始，逐步注入顏色、材質等物體屬性知識，再進階到距離、方位等空間推理，最后通過指代分割防止遺忘。
經過這套嚴苛課程的「特訓」， RynnEC不僅能回答關于物體屬性的復雜問題，還能在視頻流中實時生成分割掩碼，真正理解了物理世界的幾何與語義。
RynnBrain正是繼承了RynnEC這雙「火眼金睛」的數據和能力，并在此基礎上長出了負責邏輯推理和時空規劃的「大腦」。

以小博大：高效的MoE架構

在擁有了極致的感知后， RynnBrain在模型架構上選擇了「效率至上」。
它基于Qwen3-VL底座，使用自研RynnScale架構，讓Dense模型和MOE模型訓練加速兩倍。

輸入端支持任意分辨率圖片、多視角圖像和視頻；
輸出端則統一了區域、軌跡、點集、夾爪位姿和文本等多種具身相關模態。

尤其是， MoE架構的RynnBrain ，僅用3B推理激活參數，性能全面超越Pelican-VL（72B）巨型模型。

這種設計讓機器人既擁有大模型的智商，又具備端側部署所需的快速響應能力。

攻克頑疾：解決物理幻覺與健忘

針對傳統大模型在物理世界中「看不準」和「記不住」的痛點， RynnBrain引入了兩項關鍵技術：
? 全局時空回溯
具身智能領域中，很多機器人是「魚的記憶」，看一眼忘一眼。
舉個栗子，讓機器人去廚房拿可樂，結果剛轉個身，就忘了廚房門在哪，或者忘了剛才看見的可樂在桌子左邊還是右邊。
為此， RynnBrain引入了「全局時空記憶」。
這種能力讓機器人能夠在完整的歷史記憶中建立起涵蓋空間、位置、事件、軌跡等多維度的三維認知表征，而不僅僅是簡單地批處理歷史圖像。
通過這種深度的時空建模，模型能夠在當前視野受限的情況下，精準定位歷史畫面中出現過的物體或目標區域。
甚至在復雜的動態環境中，它還能基于歷史信息預測運動軌跡，賦予了機器人一種類似「心眼」的能力，即便轉過身去，依然能在腦海中清晰地構建出周圍環境的完整地圖，從而實現可靠的全局回溯。
? 文本與空間交錯推理
大模型最愛「一本正經地胡說八道」。在物理世界，這種幻覺是致命的。
RynnBrain拋棄了純文本推理范式，采用了一種「文本與空間定位交錯」的策略。
簡單說就是，「邊說邊指」。
模型在輸出推理文本的過程中，必須將提到的物體或區域與視頻流中的具體像素位置進行強制綁定（Grounding）。
如果模型無法在物理空間中指出它在談論什么，它就不會生成相應的文本。
這種「言必有據」的機制充當了一個嚴厲的考官，迫使推理過程緊密扎根于物理環境，從而極大地抑制了純文本模型中常見的物理幻覺問題，確保了每一個指令都是可執行、可驗證的。

訓練策略：全真數據的「暴力美學」

在訓練數據上，達摩院做了一個反直覺的決定：全部使用真實數據。
為此， RynnBrain構建了龐大的數據工程，在預訓練階段，采用了2000萬高質量數據對。
具體數據包括以下四大方面：

通用多模態數據：復用自研Video-Llama 3數據，并融合LLaVA-OV-SI、LLaVA-Video等多個開源視頻問答數據。

具身認知數據：復用自研RynnEC訓練數據，并引入Sensenova-SI、VSI-590k、Molmo2提高模型的空間理解和動態計數能力，以及自生成100萬自我為中心的OCR問答數據。

具身定位數據：五大定位任務分別標注大量視頻和圖像數據，分別為：物體定位、區域定位、操作點定位、軌跡定位和夾爪位姿定位。

規劃數據：導航和操作兩類數據，前者使用R2R和RxR數據和ScaleVLN的開源數據，后者數據來自OpenX-Embodiment和AGIBot 。

視覺數據全是真實的，但標簽怎么辦？
在這里，達摩院采用了「AI生成+人工清洗」的策略——
利用Gemini 2.5 Pro生成初步推理鏈， GPT-4o-mini進行實體分類，最后由人工對關鍵物體和區域進行畫框精標。

值得注意的是，所有定位結果都會以結構化格式<object/area> <frame n>: ...; (coordinates)</...>融入推理文本，從而實現語言與空間的對齊。
這種方法既保證了視覺的「全真」，又保證了文本邏輯的「高智商」。

后訓練：能力的「無限擴展」

作為基礎底座，在后訓練階段， RynnBrain展現了極強的泛化與下游任務適配能力。
在導航后訓練中，團隊基于導航SOTA模型StreamVLN的訓練數據，微調了RynnBrain模型。
在架構完全不變的情況下， RynnBrain-Nav導航成功率比原來SOTA提升了2%-3% 。
相較于Qwen3-VL ，在相同的數據下微調， RynnBrain作為基礎模型可以讓導航能力額外提升5% 。
這組數據有力證明了， RynnBrain在具身相關任務中預訓練的作用巨大，拉高了后續微調模型的上限。

另外，在操作規劃任務中，僅用幾百條數據微調， RynnBrain-Plan-30B(A3B)便在域內和域外的任務上全面超越Gemini 3 Pro 。
要知道，規劃任務通常要求模型，具備極強的預測能力和場景解析力。
這恰恰充分體現了，論文中「文本與定位交錯」規劃方式，更適用于復雜多變的物理世界。

達摩院的下一步：從大腦到OS

具身智能的賽道上，從不缺重量級玩家。但真正的變量，往往來自沉默的深耕者。
在外界看來，達摩院似乎是一位新晉選手。
但實際上，早在2023年，這支團隊便已在具身智能的深水區低調潛行，并構建起一套完整的技術版圖。
達摩院的野心，遠不止于模型。
去年8月，達摩院首度亮劍，開源了具身智能「三大件」：
自研VLA模型 RynnVLA-001-7B 、世界理解模型 RynnEC，以及機器人上下文協議 RynnRCP。

其中， RynnRCP協議的戰略意義尤為關鍵。
它之于具身智能，恰如MCP之于AI智能體——在異構的數據、模型與機器人本體之間，構筑了一座無縫連接的橋梁。
目前， RynnRCP已成功適配Pi0、GR00T N1.5等熱門模型及SO-100、SO-101等多款機械臂，生態朋友圈正在極速擴張。

從物理AI到機器人OS

放眼全球，從科技巨頭到獨角獸，都在涌入「物理AI」這一新戰場。
老黃更是斷言， AI與機器人的結合正在醞釀數萬億美金的機遇，是無可爭議的下一個前沿。

在這一共識下，達摩院的路徑異常清晰：先造大腦，再造OS 。
一個能感知、推理、決策的具身大腦，是機器走向自主化的前提；而對硬件的精密控制、平臺級的架構支撐、上下游的生態整合，則是讓大腦落地的軀干。
但這只是鋪墊，達摩院更長遠的目標，是打造一個通用的「機器人OS」。
正如PC時代的Windows、移動時代的Android ，具身智能亟需一個統一的底層系統，來承載算法與硬件的復雜交互。
從昔日的「火眼金睛」，到如今的「具身大腦」，再到未來的「機器人OS」。
屬于達摩院的征途，才剛剛拉開序幕。

One More Thing

這一次，達摩院繼續秉持極致開源的理念，帶來了重磅更新：

全系列模型開源

包含2B、8B、30B三種參數規模的RynnBrain基礎模型，以及針對特定場景的后訓練專有模型RynnBrain-Nav（導航）與RynnBrain-Plan-30B（規劃）等共計7個。

全新評測基準RynnBrain-Bench

針對具身智能領域在「時空細粒度」任務上的空白， RynnBrain-Bench基準涵蓋物體認知、空間認知、物體定位、具身點預測四大關鍵維度，重點考察模型對記憶視頻序列的細粒度理解及精準時空定位能力。

全棧代碼開源

完整的推理與訓練代碼，即刻可用。
GitHub:
https://github.com/alibaba-damo-academy/RynnBrain

Hugging Face:
https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

項目主頁：
https://alibaba-damo-academy.github.io/RynnBrain.github.io/

推薦閱讀

上一篇：網友用Seedance2.0復刻1670年紐約市馬斯克感慨它發展很快

下一篇：取消3500億訂單，美無法遏制中芯崛起，外媒：更糟糕的還在后面！