
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
【具身智能一步踏入Scaling Law!10B+基礎模型,27萬小時真實數據】編輯:Panda
當前機器人領域 , 基礎模型主要基于「視覺-語言預訓練」 , 這樣可將現有大型多模態模型的語義泛化優勢遷移過來 。 但是 , 機器人的智能確實能隨著算力和數據的增加而持續提升嗎?我們能預測這種提升嗎?
換句話說:我們能找到機器人模型的 Scaling Law 嗎?
就在今天 , AI 機器人創業公司 Generalist 宣布在這方面取得了突破 。 這家「以實現通用機器人為使命」的公司推出了一類新型的具身基礎模型 GEN-0 。
GEN-0 專為直接在高保真度的原始物理交互數據上進行多模態訓練而構建 , 參數量可達 10B+ 。 其架構建立在視覺和語言模型的優勢之上 , 但又超越了它們 。
其原生設計旨在捕捉人類水平的反應 (human-level reflexes) 和物理常識 。
GEN-0 還具備一項核心特性:和諧推理 (Harmonic Reasoning) 。 即訓練模型時要讓其無縫地同時「思考」和「行動」 。
更重要的是 , Generalist 還證明 GEN-0 的這些能力都是可擴展的 。 下面總結了該公司的這一波貢獻:
超越智能閾值:使用前所未有的高數據量 , Generalist 觀察到在 7B 參數上出現了一個「相變」 (phase transition):較小的模型表現出「固化」 (ossification) 現象 , 而較大的模型則持續改進 。 此后 , Generalist 將 GEN-0 擴展到 10B+ 的模型規模 , 并觀察到它們能以越來越少的后訓練快速適應新任務 。 Scaling Law:GEN-0 模型展現出了強大的 Scaling Law , 即更多的預訓練數據和算力 , 能夠持續(且可預測地)提高模型在眾多任務上的下游后訓練性能 。 和諧推理:盡管對于語言聊天機器人來說 , 在回應前「花更多時間思考」可以接受 , 但對于在現實世界中行動的物理系統而言 , 事情卻沒那么簡單 —— 物理定律可不會暫停 。 為了解決這個問題 , 「和諧推理」采用了一種全新的模型訓練方法 , 在異步、連續時間的「感知」和「行動」token 流之間建立了一種「和諧」的相互作用 。 這使模型能夠擴展到非常大的規模 , 而無需依賴「System1-System2」 架構或「推理時指導」 。 跨機體 (Cross-Embodiment):GEN-0 架構通過設計使其適用于不同的機器人 。 Generalist 已經在 6 自由度 (6DoF)、7 自由度和 16+ 自由度的半人形機器人上成功測試了模型 。 不再受數據限制:GEN-0 在 Generalist 內部的機器人數據集上進行了預訓練 , 該數據集包含超過 27 萬小時的真實世界多樣化操作數據 , 并以每周 1 萬小時的速度增長 , 且仍在加速 。 預訓練的科學:不同的預訓練數據混合(來自不同來源 , 例如數據工廠)會產生具有不同特性的 GEN-0 模型 。 Generalist 分享一些在這種海量數據情景下的早期經驗觀察 , 以及這些觀察如何追溯到特定的數據收集操作 。這一系列成果備受贊譽:
Generalist 表示:「我們相信 GEN-0 標志著一個新時代的開始:具身基礎模型的能力 , 可以通過與真實世界的物理交互數據(而不僅僅是文本、圖像或模擬數據)進行可預測的擴展 。 」
以下是 GEN-0 在一個新任務上運行的視頻:
組裝一個相機套件(俯視視角) 。這是一個長周期靈巧任務 (long horizon dexterous task) , 涉及將一塊清潔布放入盒子 , 折疊一個紙板托盤 , 拿起相機并將其從塑料袋中取出 , 放入盒子 , 關閉盒子(并插入小蓋舌) , 然后丟棄塑料袋 。 模型沒有維持任何明確的「子任務」概念 , 它在「和諧推理」的單一流程中完成了所有這些操作 。
接下來我們具體看看 Generalist 究竟做到了什么?
超越智能閾值
Generalist 的規模化實驗表明 , GEN-0 模型必須足夠大 , 才能吸收海量的物理交互數據 。 Generalist 觀察到 , 在數據過載的情況下 , 較小的模型表現出類似于「固化」的現象 , 而較大的模型則持續改進 。
下圖展示了 Generalist 模型智能容量上一個出人意料的「相變」:
1B 模型在預訓練期間難以吸收復雜多樣的感覺運動數據;模型權重隨著時間推移無法吸收新信息 。 6B 模型開始從預訓練中受益 , 并顯示出強大的多任務能力 。 7B+ 模型能夠內化大規模的機器人預訓練數據 , 這些數據僅需幾千步的后訓練就能遷移到下游任務 。
圖 1: 擴展 GEN-0 模型規模(不同顏色)可以提高在一個完全保留的(即零樣本)長周期下游任務上的性能(以「下一動作驗證預測誤差」衡量 , y 軸 , 越低越好) 。 1B 參數模型表現出明顯且早期的固化 , 而 6B 和 7B 模型在吸收預訓練數據方面分別表現得更好 。 x 軸是標準化的預訓練算力 , 以 GEN-0 7B 為 1.0 。
Generalist 表示:「據我們所知 , 這是首次在機器人領域中觀察到模型固化現象 。 過去的機器人研究可能忽略了這一點 , 原因在于 (a) 迄今為止機器人領域缺乏海量數據情景 , 以及 (b) 在此情景下缺乏足夠大的模型規模 。 」
「固化」現象之前已在 LLM 文獻中被觀察到 , 同樣是在海量數據情景下 , 但模型規模要小得多 , 處于 O(10M) 參數的量級 , 而非 O(1B) 級 。 這種相變發生在機器人領域 , 但所需的模型規模要大得多 , 這一觀察結果呼應了莫拉維克悖論 (Moravec’s Paradox):人類覺得輕而易舉的事情(如感知和靈巧性)比抽象推理需要遠為復雜的計算能力 。
Generalist 的實驗表明 , 物理世界中的智能(即物理常識)在算力方面可能有一個更高的激活閾值 (activation threshold) 。
機器人模型的 Scaling Law
Scaling Law 通常在預訓練期間進行測量 , 如圖 1 所示 , 它顯示了在預訓練期間 , 模型規模和算力在一個下游零樣本任務上的關系 。
另一種類型的 Scaling Law 則與預訓練帶來的、可持續到微調 (finetuning) 階段的益處有關 。 在足夠的模型規模下 , Generalist 還觀察到預訓練數據規模與下游后訓練性能之間存在很強的冪律關系(圖 3) 。
這適用于 Generalist 測量的所有任務 , 包括受合作伙伴和客戶啟發的應用及其工作流 , 涵蓋服裝、制造、物流、汽車和電子等廣泛的工業領域 。
更具體地說 , Generalist 選取了在預訓練數據集的不同子集上、使用其訓練流程訓練出的各種模型檢查點 , 然后在多任務語言條件數據上對這些檢查點進行后訓練 , 即同時在 16 個不同的任務集上進行監督微調 。 Generalist 發現 , 更多的預訓練可以提高所有任務的下游模型性能(圖 2) 。
圖 2: 隨著預訓練數據的增多(不同顏色) , 在所有 16 個任務集上 , 多任務模型在后訓練期間的性能(以驗證損失 (頂部) 和下一動作預測誤差 (底部 4x4 網格) 衡量)均有改善 。 這些任務包括評估靈巧性、特定行業工作流和泛化能力 。
模型性能可以通過冪律關系(圖 3)進行預測 , 借此可以回答諸如「需要多少預訓練數據才能達到特定的下一動作預測誤差?」或「更多的預訓練數據可以換?。 ń謔 。 ┒嗌伲ㄌ囟ㄈ撾竦模┖笱盜肥藎俊怪嗟奈侍?。 對于下游任務 , 給定固定的數據和微調預算 , 以及大小可變的預訓練數據集 D , 其驗證誤差 L () 可以通過以下冪律形式進行預測:
例如 , 在 Clothes Handling(涉及在真實工作場所中對衣物進行分類、整理、扣扣子和懸掛)的任務中 , 模型可以預測給定 10 億個動作軌跡時的模型性能 。 這些估計有助于指導與合作伙伴相關的任務討論 , 并能估算出達到特定性能水平還需要多少數據 。
圖 3: Generalist 的 Scaling Law 很好地描述了在給定任務集上 , 后訓練模型的漸近「下一動作預測誤差」與預訓練數據集大?。 ㄒ遠鞴旒J亢飭浚┲淶暮叵?。 結合模型規模的 Scaling Law , 我們可以使用這些結果來預測任何下游后訓練任務的預訓練算力和數據的最佳分配 。
機器人模型不再受數據限制
Generalist 的基礎模型是在一個前所未有的語料庫上訓練的 , 該語料庫包含了在全球數千個家庭、倉庫和工作場所中 , 通過各種活動收集的 27 萬小時的真實世界操作軌跡 。
Generalist 表示 , 如今該公司的機器人數據運營每周能提供超過 1 萬小時的新數據 , 并且還在加速 。 這一切都由一個全球硬件網絡以及數千臺數據收集設備和機器人提供支持 。
圖 4: GEN-0 所訓練的真實世界操作數據量 , 比迄今為止(截至 2025 年 11 月)一些最大的機器人數據集還要多出幾個數量級 。
繪制操作全圖景
為了擴展 GEN-0 的能力 , Generalist 正在構建有史以來最大、最多樣化的真實世界操作數據集 , 包括人類能想到的每一項操作任務 , 涵蓋家庭、面包店、自助洗衣店、倉庫、工廠等 。
以下是 Generalist 構建的用于探索這個「操作全景」的內部搜索工具示例:
圖 5: 這是一個在其不到 1% 的預訓練數據集中進行搜索的示例 , 該數據集包含來自不同環境中數百萬種不同活動的操作數據 。 該可視化工具引導用戶瀏覽數據集中相應語言標簽嵌入的 t-SNE 映射圖 。 給定一個文本描述 , 可視化工具會定位到最近鄰區域 , 并在該區域隨機采樣一系列相關視頻并顯示它們 。
面向互聯網規模機器人數據的基礎設施
為此 , 構建運營和機器學習基礎設施絕非易事 。 面對如此規模的機器人模型和數據 , Generalist 構建了定制硬件、數據加載器和網絡基礎設施(包括鋪設新的專用互聯網線路) , 以支持來自全球各地不同數據收集站點的上行帶寬 。
Generalist 與多家云服務商合作 , 構建了定制的上傳機器 , 擴展到 O (10K) 級核心用于持續的多模態數據處理 , 壓縮了數十 PB 的數據 , 并使用了前沿視頻基礎模型背后的數據加載技術 , 能夠在每訓練一天就吸收掉 6.85 年的真實世界操作經驗 。
預訓練的科學
通過大規模的消融實驗 , Generalist 發現數據質量和多樣性比純粹的數量更重要 , 而且精心構建的數據混合可以帶來具有不同特性的預訓練模型 。
這里就不過多展開實驗數據了 , 總之結果表明:同時具有低預測誤差和低逆 KL 散度的模型 , 在進行后訓練的監督微調 (SFT) 時往往表現更好 , 而具有高預測誤差和低逆 KL 散度的模型 , 則傾向于在分布上更具多模態性 , 這可能有助于后訓練階段的強化學習 。 擁有多種規模化的數據收集策略 , 使 Generalist 能夠持續進行 A/B 測試 , 以確定哪種數據對預訓練的提升最大 。
你認為 GEN-0 是否標志著一個具身智能新時代的開始?
參考鏈接
https://x.com/GeneralistAI/status/1985742083806937218
https://generalistai.com/blog/nov-04-2025-GEN-0
文中視頻鏈接:https://mp.weixin.qq.com/s/kEdFdgePK5ZFVhL1-d7adg
推薦閱讀
- 算力進入智能協同時代:商湯科技林海分享AI基礎設施綠色轉型思路
- 飛貓AI WiFi:不止是隨身網絡,更是你的移動智能辦公中樞
- Databricks擴展AI智能體治理與評估工具
- 一步到位用六年,雙11公認“值得買”的3款小屏旗艦,頂配16GB+1TB
- 閃迪攜全場景存儲解決方案亮相CPSE安博會2025,賦能智能安防新生態
- 普羅宇宙吳超新:具身智能的價值實現,根植于場景驅動與產業需求
- 當輕薄與智能融入日常,聯想正在講述新的終端故事
- AEPO:智能體熵平衡策略優化,讓探索更穩,推理更深!
- 以國家安全為名:美國要進一步全面禁售TP-Link路由器!
- 谷歌Gemini 3確認年內發布 主攻復雜智能體
