機器人的GPT時刻？豐田研究院悄悄做了一場最嚴謹的VLA驗證實驗_微軟

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
編輯：冷貓
提到機械臂，第一反應的關鍵詞是「抓取」，高級些的機械臂也就做做冰淇淋和咖啡之類的小任務。
但若要機械臂自主完成繁重且復雜的任務，如布置餐桌、組裝自行車，難度便呈指數級上升。這類任務對感知、理解與動作控制的協同提出了極高要求。
近年來，隨著視覺 - 語言 - 動作（VLA）模型的迅速發展，機器人已逐步具備整合多模態信息（如圖像、指令、場景語義）并執行復雜任務的能力，朝著更智能、更通用的方向邁進。
但是目前 VLA 的研究尚未達到里程碑式的成果，具身智能的「GPT」似乎離我們還很遙遠。
直到我看到了這兩段視頻：

機械臂在現實世界中已經能夠實現雙臂寫作，完成如此復雜的組合任務，并且還能夠在操作過程中糾錯。這相比過去的 VLA 研究成果有了非常明顯的提高。
深入探索了一下這份研究，作者在 VLA 的思路基礎上更進一步，在擴散模型策略的基礎上，完全構建了一個針對機器人的大型行為模型（Large Behavior Model ， LBM），經過訓練和微調，便能夠實現機械臂自主執行復雜操作中如此令人驚艷的結果。

來自谷歌的研究者 Ted Xiao 說：
「如果你從事機器人技術和人工智能領域，最近在斯坦福大學關于擴展多任務機器人操作的視頻是必看的，毫無疑問。沒有營銷，沒有炒作。只有基于堅實假設的科學，有證據支持的斷言。在當今的背景下，這是一個寶藏！」

前英偉達學者 Jiafei Duan 表示：
「我是 TRI 這項工作的忠實粉絲，嚴格的評估是機器人領域真正進步的催化劑。」
這份工作來自豐田研究院（TRI）的大型行為模型團隊。作者之一是麻省理工學院教授，豐田研究院機器人研究副總裁 Russ Tedrake 。
據說， Russ 是一位低調但極其嚴謹的學者，對于這篇論文，僅在推特和領英各發了一則短文進行簡要介紹。然而，有限的宣傳并未掩蓋這項工作的卓越價值 —— 論文本身足以說明一切。
該論文通過在模擬與真實機器人數據集上擴展擴散（Diffusion）策略框架，系統性評估了一類多任務機器人操作策略，稱為大型行為模型。論文設計并驗證了一套嚴謹的評估流程，以統計置信的方式分析這些模型的能力。通過盲測與隨機試驗，在控制環境下將多任務策略與單任務基線模型進行了對比，涵蓋仿真與現實實驗。

論文標題：A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation
論文鏈接：https://arxiv.org/pdf/2507.05331
項目鏈接：https://toyotaresearchinstitute.github.io/lbm1/

大型行為模型是一類視覺 - 運動策略，基于多樣化的模擬與真實世界操作數據進行訓練。
采取傳統的單任務行為策略的機器人在面對任務變化或訓練分布之外的環境時表現出有限的泛化能力。為了克服這種脆弱性，該領域正越來越多地采用 LBM —— 在包含動作級演示的大規模多任務數據集上訓練的視覺運動基礎模型。盡管 LBM 的研究與開發蓬勃發展，但關于觀察到的成功主要是否源于多任務預訓練，仍然存在重大不確定性。
為了嚴謹地研究多任務預訓練的影響，論文在近 1700 小時的機器人數據上訓練了一系列基于擴散的 LBM ，并進行了 1800 次真實世界的評估部署和超過 47000 次模擬部署，以嚴格研究它們的能力。
論文發現：

相對于從頭開始的策略， LBM 提供一致的性能提升；
在具有挑戰性的環境中， LBM 使用 3-5 倍更少的數據來學習新任務，并要求對各種環境因素具有魯棒性；
隨著預訓練數據的增加， LBM 的性能穩步提高。

即便只有數百小時多樣化的數據、每種行為僅有幾百條演示，模型的性能依然實現了顯著提升。預訓練在遠小于預期規模的條件下，便能帶來持續穩定的性能增益。雖然當前還沒有如同「互聯網級」的機器人數據量，但令人欣喜的是，性能收益在遠未達到那一規模時就已顯現 —— 這是一個積極信號，預示著通過數據獲取與性能自舉的良性循環是完全可能實現的。
這樣積極的結論，似乎預示著機器人領域的通用大規模模型的到來，具身智能的「GPT 時刻」還有多遙遠？
LBM 架構

LBM 架構：論文采用了一種 Diffusion Transformer 架構，該模型以語言、視覺和本體感知（proprioception）作為條件輸入，并輸出 20 維動作序列，覆蓋未來 16 個時間步長。
在部署階段，策略以 10 Hz 的頻率運行，機器人會執行前 8 個時間步的預測動作，然后重新規劃后續動作。
本文的 LBM（Large Behavior Models）是一類擴展的多任務擴散策略模型，具備多模態的 ViT（視覺 Transformer）視覺 - 語言編碼器，并采用基于 AdaLN 的 Transformer 去噪頭對編碼觀察進行條件建模。這些模型能夠處理手腕攝像頭和場景攝像頭圖像、機器人本體狀態（proprioception）以及語言提示，并預測連續 16 步（1.6 秒）的動作片段（action chunks）。
論文在一個混合數據集上訓練 LBM ，包含：

468 小時的內部采集的雙臂機器人遙操作數據，
45 小時的模擬環境中的遙操作數據，
32 小時的通用操作接口（UMI）數據，
以及約 1150 小時從 Open X-Embodiment 數據集中整理的互聯網數據。

盡管模擬數據所占比例較小，但它的納入確保了可以在模擬環境和真實世界中使用同一個 LBM 檢查點進行評估。
實驗細節
測試平臺
本文的 LBM 在采用 Franka Panda FR3 手臂和最多六個攝像頭的物理和 Drake 模擬的雙臂工作站上進行了評估 —— 每只手腕最多兩個攝像頭，以及兩個靜態場景攝像頭。

在雙手操作平臺上，在模擬和現實世界中，針對多種任務和環境條件，評估了的 LBM 模型。
評估指標
論文衡量策略性能的主要指標包括：成功率（Success Rate）和任務完成度（Task Completion）。
其中，成功率是機器人學習領域的標準評估指標，能有效反映策略能否完成任務的整體表現，但它無法全面刻畫策略的細節表現。例如，一個策略「幾乎完成任務」與「完全沒有動作」在成功率上表現相同，然而實際能力差異極大。為了更細致地區分這些情況，論文引入了任務完成度指標。
具體來說：

在真實世界評估中，設計了打分量表（rubrics），用于基于任務的中間目標（milestones）來量化完成度。該評分過程由人工填寫，并引入了一套質量保證（QA）流程來確保量表評估結果的可靠性。
在仿真環境中，采用自動化謂詞（predicates）來判斷是否達到各個中間目標，進而計算任務完成度。

盡管報告了絕對成功率，但論文認為相對成功率才是對比不同方法性能的核心依據。因為絕對成功率高度依賴任務本身的設計 —— 例如起始條件的隨機性、演示數量的多少都能顯著改變任務難度，進而影響最終結果。
因此，論文研究者在實驗設計上刻意提高任務難度，期望策略成功率在 50% 左右，以便更清晰地區分方法之間的優劣。不過在實際運行中，成功率可能會顯著高于或低于這個目標值。
實驗結果
LBM 在「已見」任務上的性能

LBM 在真實世界和仿真環境中的「已見任務」表現：（a）無分布偏移，（b）有分布偏移。論文比較了單任務模型、預訓練的 LBM 以及微調后的 LBM 。
在這一組實驗中，研究者們發現：
1. 微調后的 LBM 在「已見任務」上表現優于單任務基線模型。
2. 微調后的 LBM 對「已見任務」的分布偏移更具魯棒性。
3. 未經微調的 LBM 在「已見任務」中也有非零成功率，且性能與單任務模型相近。
LBM 在「未見」任務上的性能
對于「未見」任務，尤其是那些復雜任務，研究者并不指望預訓練的 LBM 能夠成功完成。因此只比較微調后的 LBM 與單任務基線模型的表現。
此外，針對這些復雜任務，預期其成功率較低，因此更側重于通過任務完成度（task completion）圖來獲得直觀見解。

LBM 在來自仿真訓練集場景的「未見」仿真任務上的表現。左圖：在正常條件下進行評估。右圖：在分布偏移條件下進行評估。

LBM 在現實世界和仿真環境中「未見」任務下的表現（在正常條件下評估）。論文將單任務基線方法與微調后的 LBM 進行對比。上排展示的是成功率結果，下排展示的是任務完成度結果。
在「未見」的任務評估中，研究者得出結論：
1、微調后的 LBM 在「未見」任務上優于單任務基線模型。
2、微調 LBM 達到與單任務基線模型相似的性能所需的任務特定數據更少。
綜合來看，通過插值可估算出，若對 LBM 進行微調，僅需不到 30% 的任務特定數據即可達到從零開始訓練所需全部數據的效果。

并排比較設置早餐桌的模型：(左) 單任務基線， (右) LBM 。
預訓練規模法則
這是這篇論文中作者最喜歡的圖表，它概括了所有內容。
這個圖表比較了在訓練新任務之前使用不同數量的預訓練數據時的性能：0%（即單任務）， 25% ， 50% 或 100% 的 TRI 數據，然后是 100% 的 TRI 數據加上整理的所有開源機器人數據（紅線）。
「任務完成分布如此緊密，而且隨著數據量的增加，趨勢如此一致，這真是太棒了。」
結果表明，通過預訓練，可以用更少的數據量訓練出新的技能，或者使用相同的數據量并獲得更好的任務性能。而且，隨著數據量的增加，這些優勢似乎會持續下去。

在標準條件下對五個模擬環境中的「未見」任務進行評估，并報告所有任務的平均任務完成度指標。
論文用極其長篇的篇幅，系統地闡述了實驗流程、平臺設計、仿真與真實世界評估細節、數據分析方法以及數據集構建等各個方面，做了大量的完備的實驗，最終凝練成 Russ 推文中的：「LBM 有效！」

【機器人的GPT時刻？豐田研究院悄悄做了一場最嚴謹的VLA驗證實驗】論文包含LBM完整架構與訓練策略，海量實驗細節與評估細節，請參閱原論文。