Physical Intelligence發現人機遷移能力與預訓練多樣性正相關

Physical Intelligence發現人機遷移能力與預訓練多樣性正相關

文章圖片

Physical Intelligence發現人機遷移能力與預訓練多樣性正相關

文章圖片


就在不久前 , 機器人初創公司 Generalist AI 發布了他們的 GEN-0 模型 , 聲稱首次在機器人領域建立了類似語言模型的 scaling law , 即隨著預訓練數據和計算量的增加 , 下游任務性能呈現可預測的冪律提升 。

他們的訓練數據規模達到驚人的 27 萬小時真實世界操作視頻 , 遠超目前公開的任何機器人數據集 。 這一發現在業內引發了廣泛關注 , 因為它意味著機器人智能可能終于踏上了與大語言模型類似的可預測增長軌道 。

今天 , 另一家知名的機器人初創 Physical Intelligence 又發表了一項研究 , 從另一個角度佐證了規模效應的存在 , 而且揭示了一個此前容易被忽略的現象:不僅機器人策略本身會從規模中獲益 , 從異質數據源汲取知識的能力同樣是規模的產物 。

圖丨相關論文(來源:Physical Intelligence)

具體而言 , 當 VLA(Vision-Language-Action , 視覺-語言-動作)模型在足夠多樣化的場景、任務和機器人形態上完成預訓練之后 , 一種此前難以實現的能力會以“涌現”的方式出現:模型突然具備了從人類視頻中學習技能并遷移到機器人執行的能力 。 而在預訓練規模不足時 , 無論你怎么精心設計對齊機制 , 這種跨具身形態的遷移效果都難以令人滿意 。

(來源:Physical Intelligence)

讓機器人觀看人類操作視頻來學習技能 , 是業內目前探索的重要路徑之一 。 它的吸引力顯而易見:人類視頻俯拾皆是 , 而機器人示范數據的采集成本高昂且進展緩慢 。 然而現實是 , 直接把人類視頻喂給機器人模型訓練 , 效果往往令人失望 。

視覺上 , 人類的手與機器人的夾爪形態迥異;運動學上 , 人體關節自由度與機器人末端執行器的動作空間天差地別 。 這道“跨具身形態”的鴻溝橫亙在人機之間 , 此前的解決方案大多依賴于各種精心設計的對齊技術 , 關鍵點追蹤、潛在動作編碼、獎勵建模、仿射變換等等 。 Physical Intelligence 這項研究的核心貢獻在于表明 , 在足夠的預訓練規模下 , 這些顯式對齊步驟可能根本不需要 。

這項研究由 Physical Intelligence 聯合 Georgia Tech 的研究人員完成 。 第一作者 Simar Kareer 是 Georgia Tech 計算機視覺方向的博士生 , 此前他就以 EgoMimic 項目在業內嶄露頭角 。 那套系統用 Meta 的 Project Aria 眼鏡錄制人類第一人稱視頻 , 讓機器人通過模仿學習掌握疊衣服等家務技能 , 性能提升幅度達 400% 。
【Physical Intelligence發現人機遷移能力與預訓練多樣性正相關】
EgoMimic 的成功依賴于一系列精心設計的跨域對齊技術 , 這也是此前該領域的通行做法 。 而這次的新研究則試圖回答一個更激進的問題:如果完全不做顯式對齊 , 純粹依靠預訓練規模 , 能否讓模型自己學會跨越具身形態的鴻溝?

為此 , 研究團隊設計了一套簡單到近乎粗暴的聯合訓練方案 。 他們把人類視頻當作 VLA 訓練混合數據中的“又一種機器人形態”來處理 , 采用與機器人數據完全相同的訓練目標:低層級的末端執行器軌跡預測和高層級的子任務語言預測 。

人類手部的 3D 姿態通過手勢追蹤技術提取 , 映射為類似機器人末端執行器的相對運動;子任務標注則與機器人數據的標注格式保持一致 。 在微調階段 , 人類數據與對應任務的機器人數據按 50:50 的比例混合 。 沒有任何域適應模塊 , 沒有對抗訓練 , 沒有手工設計的特征對齊 。

研究團隊刻意不去額外“照顧”模型 , 把那些常見的域適應與顯式對齊組件都拿掉 , 只保留最樸素的共同訓練配方 , 用這種近乎苛刻的設置來檢驗:模型能否僅憑預訓練打下的基礎 , 把這些異質數據真正消化并轉化為可執行的策略 。

實驗結果呈現出一條清晰的分界線 。 當 VLA 模型沒有經過預訓練或只在有限數據上預訓練時 , 加入人類視頻非但沒有幫助 , 有時甚至會產生負遷移效應 。 但隨著預訓練數據的多樣性逐步提升 , 從 25% 到 50%、75% , 直至完整的多機器人跨形態預訓練 , 人類視頻帶來的增益開始顯著上升 。 在他們的四項泛化基準測試中 , 最強版本的模型幾乎將整體性能翻了一番 。

圖丨在人類到機器人在泛化任務上的遷移(來源:Physical Intelligence)

這四項基準覆蓋了不同維度的泛化挑戰 。 場景泛化測試中 , 機器人需要在從未見過的公寓里整理調料架或梳妝臺 , 而這些新場景只出現在人類視頻中 。 物體泛化測試中 , 機器人要收拾桌上的新廚具 , 同樣是人類數據引入的品類 。 最具說服力的是任務泛化測試:機器人數據只演示過把雞蛋放進蛋托的動作 , 而人類視頻額外展示了按顏色分揀雞蛋的操作 。

結果是 , 未經人類數據訓練的模型只會隨機放置 , 分揀正確率約 57%;而聯合訓練后的模型達到了 78% 的準確率 , 平均每次多正確放置 4 個雞蛋 。 機器人從人類視頻中學會了“分揀”這個它從未在機器人示范中見過的語義概念 。

而且 , 這種能力并非線性增長 , 而是在跨過某個預訓練門檻后才突然顯現出來 。

以雞蛋分揀任務為例 , 單純增加預訓練多樣性并不能讓只用機器人數據訓練的模型學會分揀 , 因為分揀這個概念根本不存在于機器人數據中 。 但增加預訓練多樣性卻能讓模型更有效地從人類視頻中獲取這一知識 。

類似地 , 在梳妝臺整理任務上 , 50% 預訓練規模以下的模型從人類視頻中獲益甚微甚至出現負遷移 , 但在 75% 到 100% 的預訓練規模區間 , 增益開始穩定累積 。 這種非線性的涌現模式與大語言模型中觀察到的現象如出一轍:某些能力不是漸進出現的 , 而是在跨越特定規模門檻后突然“解鎖” 。

研究團隊進一步分析了這種涌現現象背后的機理 。 通過對模型最后一層視覺 token 的 t-SNE(t-distributed Stochastic Neighbor Embedding , t 分布隨機鄰域嵌入) 降維可視化 , 他們發現了一個有趣的規律:在弱預訓練條件下 , 人類數據和機器人數據的表征呈現出明顯的分離態勢 , 模型似乎在用兩套不同的“語言”理解這兩類數據 。 但隨著預訓練多樣性增加 , 兩類數據的表征開始逐漸重疊 , 最終趨于高度混合 。

換言之 , 充分多樣化的預訓練使得模型形成了“具身無關”的中間表示 , 人類手臂的揮動和機械臂的伸展在這個表示空間里可以被映射到語義相近的區域 。 這就解釋了為什么顯式對齊變得不再必要 , 模型自己完成了這項工作 。

另外 , 這項研究也揭示 , 人類數據并不是萬能的 。 在某些任務上 , 人類視頻的效果接近于直接使用目標機器人數據 , 研究團隊在整理梳妝臺和分揀雞蛋任務上觀察到了這一點 。 但在收拾餐桌的測試中 , 真實機器人數據仍然明顯優于人類數據 。

研究者將人類數據與來自另一款 UR5 機器人的跨形態遷移數據做了對比 , 發現兩者表現出相似的遷移特性:都比基線有所提升 , 但都不及目標機器人自身的數據 。 所以 , 在 VLA 的數據混合策略中 , 人類視頻更應該被視為一種有價值的補充數據源 , 而非完全替代方案 。

另一個細節是腕部相機的作用 。 研究團隊讓人類數據采集者佩戴類似機器人腕部相機的微型攝像頭 , 以縮小傳感器配置上的域差距 。 在某些任務上 , 這些額外視角確實帶來了性能提升 , 但在另一些任務上影響甚微 。 這提示我們 , 人類數據采集的傳感器配置可能需要根據目標任務的特點進行權衡 。

目前困擾整個行業的核心瓶頸之一是高質量機器人示范數據的采集成本 。 遙操作需要專業人員花費大量時間 , 而且容易引入操作失誤 。 如果人類視頻能夠有效補充機器人數據 , 那么數據采集的邊際成本將大幅降低 。 普通人佩戴智能眼鏡從事日?;顒赢a生的視頻流 , 理論上都可以成為機器人學習的素材 。

Figure AI 最近宣布的 Project Go-Big 計劃走的就是這條路線 , 他們與房地產巨頭 Brookfield 合作 , 打算從其遍布全球的十萬余套住宅單元中大規模采集人類生活視頻 , 并聲稱已經實現了從純人類視頻到機器人導航的零樣本遷移 。

不過 , Physical Intelligence 的研究也給這種愿景設置了一個前提條件:想要有效利用人類視頻 , 你首先得有一個足夠強大的預訓練基礎 。 沒有經過充分多樣化預訓練的模型 , 拿到再多人類視頻也是枉然 。 也就是說 , 你必須先投入大量資源構建多樣化的機器人預訓練數據集 , 才能“解鎖”從人類視頻中學習的能力 。

圖丨來自人類數據的絕對性能提升與預訓練多樣性(來源:Physical Intelligence)

還有一點值得關注:這項研究使用的人類數據量相當有限 , 每個任務僅 3 到 5 小時 , 遠不及網絡上可獲取的海量人類活動視頻 。 研究者也坦承 , 他們目前的數據采集方式仍然是片段式的 , 尚未涉足“在野”環境下的被動采集 。 未來如何有效利用這些非結構化、非片段式的人類視頻數據 , 仍是一個開放問題 。 但至少 , 這項研究確立了一個重要的基線:在適當的預訓練條件下 , 即便是相對少量的人類視頻也能產生可觀的遷移效果 。

回顧整個發現的內在邏輯 , 其實并不難理解 。 充分多樣化的預訓練迫使模型學會抽象 , 因為它必須找到不同機器人形態、不同場景、不同任務之間的共性才能有效泛化 。

這種被迫形成的抽象能力 , 恰好也是跨越人機鴻溝所需要的 。 當模型的內部表示不再緊密綁定于某一種特定的視覺外觀或運動學參數 , 而是捕捉到更高層級的語義和意圖 , 人類手臂和機械手臂之間的差異就變得不再是無法逾越的障礙 。

大語言模型領域的研究者很早就注意到 , 某些能力只有在模型規模跨越特定門檻后才會涌現 。 現在看來 , 機器人基礎模型也存在類似的規模門檻效應 , 只不過這里的“規?!辈粌H指參數量 , 更關鍵的是預訓練數據在場景、任務和具身形態三個維度上的多樣性 。 對于那些正在規劃機器人數據采集策略的團隊來說 , 這是一個值得認真對待的發現:數據量固然重要 , 但數據的多樣性可能更加關鍵 。

參考資料:
1.https://www.pi.website/download/human_to_robot.pdf
2.https://www.pi.website/research/human_to_robot

運營/排版:何晨龍

    推薦閱讀