500萬次圍觀，1X把「世界模型」真正用在了機器人NEO身上海關總署

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心編輯部
還記得那個穿著「Lululemon」緊身衣、主打溫柔陪伴的家用人形機器人 NEO 嗎？

上次聊到它時，大家還在吐槽其「遠程操控」的隱私安全問題，調侃每個機器人的背后可能都是一個「印度小哥」。
昨天， 1X 公司帶著它的全新「大腦」亮相：1X World Model 。這一次， NEO 似乎準備把「背后的操作員」給解放了。

簡單來說，現在的 NEO 不再只是死記硬背動作，它學會了像人一樣「想象」。通過觀看海量的網絡視頻和人類第一視角的實操錄像，它理解了物理世界是如何運作的：東西掉了會下落，門是可以推開的。
他們把類似 Sora 的視頻生成技術裝進了 NEO 的腦子里，接到指令時，它會先在腦海里生成一段「自己成功完成任務」的視頻，然后倒推身體該怎么動，才能把這段想象變成現實。
不過，官方博客中也表示，有時候會出現「腦子學會了，手沒學會」的情況：腦補出的視頻很完美，但實際動作可能會抓空。

那么這一次是「瑜伽服」下的真功夫，還是只存在于 Demo 里的「剪輯魔法」呢？不管技術落沒落地，熱度已經先爆表了。到截稿時間，官方推文瀏覽量已突破 500 萬。

看來，在經歷了 AI 時代各式各樣炫酷 Demo 的輪番轟炸之后，大家還是忍不住想看看：這一回，它是真長腦子了嗎？
以下是 1X 技術團隊對這顆「新大腦」的硬核拆解：

家庭機器人要真正走進現實環境，必須具備常識性的行為能力以及對物理世界的深刻理解。
當前許多機器人基礎模型采用的是 VLA 范式：即在一個預訓練的 VLM 之上，增加一個用于預測機器人動作的輸出頭（例如 PI0.6、Helix、Groot N1.5）。 VLM 能夠從互聯網規模的數據中學習到豐富的知識，但其訓練目標更側重于視覺與語義理解，而非對物理動態過程的預測。
因此，即便是對人類而言非常簡單的任務，模型往往也需要數萬小時、成本高昂的機器人數據才能學會完成。此外，為了進一步強化模型對物理交互中空間關系的理解，研究者通常還需要引入各種輔助訓練目標（如 MolmoAct、Gemini-Robotics 1.5）。
在這篇博客中， 1X 介紹了基于視頻預訓練的世界模型——1XWM ，并將其集成進 NEO 機器人作為其控制策略。
與 VLA 模型直接從靜態的圖像-語言輸入中預測動作軌跡不同，世界模型驅動策略是通過文本條件下的視頻生成來推導機器人應采取的動作。借助互聯網規模視頻中蘊含的真實世界動力學規律，該世界模型能夠在無需大規模機器人數據預訓練、也不依賴任何相關的遙操作演示的情況下，即可泛化到全新的物體、運動方式和任務場景。
這標志著機器人智能范式的一次轉變：機器人開始直接受益于視頻預訓練規模化帶來的能力躍遷，而這一切得以實現，離不開一整套為高保真人類具身到機器人具身遷移而設計的硬件系統支持。

從視頻知識到世界模型
如今，諸如 Veo 和 Sora 等前沿文生視頻模型已經能夠生成極其逼真的視頻內容。然而，這些模型在零樣本生成場景下并未與機器人具身形態對齊，因而在控制任務所需的多個關鍵維度上往往存在不足，表現在以下幾個方面：

視覺/空間層面：生成的視頻是否與機器人的相機內參和自我中心視角一致？是否能夠準確保留操控任務所需的深度信息以及精確的空間關系？
運動學層面：生成視頻中的機器人動作是否在該具身形態下可實現，是否遵循其結構特性、關節極限、速度約束以及執行器能力？
物理層面：生成過程是否避免了物理上不可能的結果（例如物體瞬移），從而保證其能夠轉化為現實世界中的成功執行？

原始視頻能夠提供看起來會發生什么，但并未給出如何去做。為了將視頻知識轉化為真正可用于控制的世界模型， 1X 借助自身的端到端系統架構，采用了一種兩階段的對齊過程，思路與 DreamGen、UniPi 等已有工作一脈相承：

世界模型主干：這是一個文本條件擴散模型：先在互聯網規模的視頻數據上進行預訓練，隨后在人類第一視角視頻數據上進行中期訓練，并最終在 NEO 專屬的傳感器-運動日志上進行微調。該模型能夠高保真地預測場景隨時間演化的過程，在視覺、空間和物理一致性方面表現出色。
逆動力學模型（Inverse Dynamics Model IDM）：通過訓練 IDM ，將像素空間與執行器控制連接起來，使其能夠預測在生成幀之間完成狀態轉移所需的精確動作序列。同時利用 IDM 的評估指標和拒絕采樣機制，對生成結果施加運動學約束，從而確保動作在具身層面上的可行性。

在推理階段，系統接收一個文本指令和一幀初始畫面：世界模型負責生成符合意圖的未來場景演化，逆動力學模型從中提取所需的動作軌跡，最終由機器人在現實世界中執行該動作序列。

1XWM 的訓練與推理流程
1XWM 的主干模型基于一個 140 億參數的生成式視頻模型。為了使該模型適配 NEO 的具身形態， 1X 還采用了一種多階段訓練策略：

第一視角中期訓練：使用 900 小時的人類第一視角視頻數據進行訓練，使模型對第一人稱的操作任務產生對齊。在這一階段，模型能夠學習到通用的操作行為模式，但仍然難以生成由 NEO 執行具體任務的視頻。
具身微調：隨后，使用 70 小時的機器人數據進行微調，使模型進一步適配 NEO 的視覺外觀與運動學特性。

以 DALL·E 3 等工作為例，已有研究表明，通過使用更具描述性的視覺文本標注進行訓練，可以顯著提升視覺基礎模型對提示詞的遵循能力。然而，許多第一視角數據集僅包含簡要的任務描述。為此， 1X 利用一個 VLM 生成更加詳細的描述性字幕，并通過字幕上采樣的方式將其用于訓練。
此外， IDM 在 400 小時未經過濾的機器人數據上進行訓練，其中既包括隨機探索數據，也包含與任何具體任務無關的運動軌跡。這使得模型能夠在任意狀態下對 NEO 的運動進行準確追蹤。
在測試階段，系統接收一幀初始畫面以及一條指導 NEO 執行動作的文本指令。 1XWM 負責生成未來的視頻序列，隨后由 IDM 從生成視頻中提取對應的機器人動作軌跡，并將其直接下發至機器人執行。為保證軌跡的平滑性， IDM 的輸出會在多個初始噪聲樣本和滑動窗口維度上進行時間平均處理。

NEO 后訓練數據集主要包含高質量的抓取和放置數據（98.5%），這些數據經過篩選，僅包含桌面操作且手部可見的場景。通過利用基礎視頻模型的網絡級預訓練， 1XWM 模型可以泛化到各種未曾見過的物體、環境和任務。
1XWM 到底能做啥
研究團隊進一步評估了 1XWM 在任務泛化方面的能力，重點關注其是否能夠完成 NEO 從未經歷過的任務，以及生成視頻與真實機器人執行之間的一致性程度。
在實驗中，搭載 1XWM 的 NEO 被用于執行多種超出既有經驗的任務，包括：

抓取分布內與分布外的物體；
操作此前從未見過、但具備復雜可供性的物體；
完成需要全新動作模式的全新任務。

實驗結果顯示， 1XWM 生成的視頻與真實世界中的執行過程整體高度一致。將模型生成的視頻與機器人實際完成任務后拍攝的視頻進行并排對比，可以發現二者在視覺表現上非常接近。這表明， 1XWM 在空間結構理解、運動學約束建模以及物理一致性等方面已經具備較強能力。
抓?。 ?

新動作：清潔

接下來， 1X 嘗試需要雙手協調和人機交互的任務。這些能力并未包含在訓練數據集中。這表明此類知識來源于視頻預訓練和以第一人稱視角進行的人機交互訓練。由于 NEO 的身體結構與人類非常相似，因此從人類視頻數據中學習到的功能可以直接遷移應用。

【500萬次圍觀，1X把「世界模型」真正用在了機器人NEO身上】
研究團隊還通過系統性的實物實驗評估了 1XWM 在分布內（ID）與分布外（OOD）任務上的表現。每類任務均重復執行 30 次。結果顯示， 1XWM 在多種動作原語上都保持了穩定的成功率，不過部分對精細操作要求較高的任務（例如倒液體、繪圖等）仍然具有一定挑戰性。

能否將視頻質量與任務成功率聯系起來？
如果可以，就能使用視覺指標來衡量和改進視頻質量，并估計實際任務成功的可能性。
有時，生成的視頻是否可能成功一目了然。例如，向 1XWM 模型輸入拉取紙巾指令，有時會生成 NEO 機器人拿起紙巾盒而不是拉取紙巾的視頻。執行這些錯誤生成的視頻時，成功率幾乎為 0% 。
1X 團隊注意到像測試時計算這樣的方法可以提高任務成功率。受此啟發，他們嘗試并行生成多個視頻，并執行其中質量最好的一個。這個選擇過程可以手動完成，但也可以使用 VLM 評估器進行自動化。

第一視角數據與高質量字幕的重要性
基于此前假設：生成視頻的質量與任務成功率之間存在相關性，研究團隊對若干訓練選擇進行了視覺層面的消融分析，重點考察了字幕上采樣以及第一視角人類數據訓練這兩項因素的影響。
實驗共使用了三個評測數據集，每個數據集均包含 500 組起始圖像–提示詞對：

分布內數據集：包含與機器人訓練數據分布一致的復雜任務和場景，主要是雜亂環境中、物體位置較為困難的抓取與放置任務。
新任務數據集：由一組全新的任務構成，例如攪拌碗、抽紙、相對尺寸判斷（選擇更大的物體）、雙手協同操作等，數據采集于真實世界中的簡單背景場景。
分布外 T2I（OOD T2I）數據集：完全由抓取任務組成，其初始幀由文生圖模型生成，隨機采樣分布外的家庭物體與背景場景。

下面是新任務數據示例：

團隊還要求人工標注員審查每個生成的視頻，并根據物理合理性、任務完成情況以及與 NEO 的形態和能力的一致性來決定接受或拒絕該視頻。

字幕上采樣在所有評測數據集上都能提升視頻生成質量，因為更細致的字幕與視頻模型預訓練時的文本條件更加匹配，也能更清晰地引導具體動作生成。
引入第一視角人類數據則顯著提升了新任務和分布外場景下的生成質量，說明這類數據為操作任務提供了可遷移的通用先驗，且與 NEO 的類人具身高度契合。
不過，在已有大量 NEO 數據覆蓋的分布內任務上，額外加入第一視角數據可能會稀釋后訓練數據分布，對效果提升有限，甚至略有負面影響。

參考鏈接：https://www.1x.tech/discover/world-model-self-learning