擺脫遙控器，波士頓動力人形機器人，開始「長腦子」干活了

2026-03-10 閃電新聞謝潔心

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
編輯：冷貓、+0
【擺脫遙控器，波士頓動力人形機器人，開始「長腦子」干活了】剛剛結束的世界人形機器人運動會上，雖說各家機器人是各顯神通吧，但也鬧出了不少好玩的小插曲。
尤其是宇樹科技 H1 機器人「肇事逃逸」事件。（機器人也會「摸魚」了？宇樹 G1 賽后葛優癱刷美女視頻，網友：比人還懂享受生活）
這也引發了網友的一些討論和爭議，需要人工遙控的人形機器人或許真的不是我們想要的。

宇樹科技王興興明確表示「下次比賽我們肯定是全自主的，這并沒有難度」。
而在全面自主決策自主行動的通用機器人領域，老牌龍頭波士頓動力仍抱有很大的野心。
他們認為：要讓人形機器人真正實用，他們必須掌握一系列廣泛而復雜的能力。這不僅包括靈巧地操作各種各樣的物體（無論軟硬、輕重、大?。 ?，也要求它們能夠協調整個身體，在復雜環境中移動、避障，并在應對意外情況時保持平衡。要實現這一目標，最有效的路徑是開發能夠處理多樣化任務的通用型 AI 機器人。
而這一次，波士頓動力與豐田研究院 (TRI）合作，為波士頓動力著名的 Atlas 機器人開發大型行為模型 (LBM) ，其核心是構建一種端到端的語言條件策略（由語言驅動的控制模型），使 Atlas 能夠理解指令并自主完成持續時間長、步驟復雜的操作任務。
就在剛剛，研究團隊發布了其最新的成果展示，人形機器人 Atlas 完全自主地執行收納整理任務的視頻，著實讓人大吃一驚。

視頻里展示了 Atlas 機器人完全自主的動作，未經過加速處理，直觀的展現了幾個亮點操作：

首先是機器人演示中最常見的場景，人類給機器人添亂。在研究人員用冰球棍扒拉箱子，蓋上箱子蓋的搗亂動作下， Atlas 能夠自主決策打開箱子蓋，并且挪動箱子的位置，和人類的動作決策很相似，甚至能看出一點無語。
值得注意的是，當它用右手抓起一把零件的時候掉落了一塊，它能夠立刻用左手去撿起來。

面對研究人員在箱子外丟下的零件，它能夠移開箱子，撿起物品并繼續完成任務。

在這個場景下， Atlas 可以識別手上的物體，將機器狗的腿部零件折疊放置在架子上。

同時也能識別面板零件，并下蹲拉開箱子收納。
從機器人的動作中可以看出，其背后的 AI 控制模型能夠充分利用人形形態的各種能力，包括行走、精確定位雙腳、下蹲、轉移質心以及避免自我碰撞等。研究發現，所有這些能力對于解決真實的移動操作任務都至關重要。
波士頓動力的技術主管 Lucas Manuelli 表示：「如果幾年前有人給我看這樣的演示，我一定會驚嘆不已。但如今，算法、數據和硬件正逐漸匯聚在一起，讓這些令人難以置信的事情真正成為可能。」

雖說大家想象中的無所不能的通用機器人仍然很遙遠，但不得不說，這一步已經讓未來離我們更近了一點。
網友們對波士頓動力這次的演示成果評價都挺高的：

也有網友開玩笑說，那根搗亂的冰球棍真的會惹毛了機器人們：

研究團隊發布了一篇博客，詳細介紹了該 LBM 的構建過程與細節。

博客地址：https://bostondynamics.com/blog/large-behavior-models-atlas-find-new-footing/?utm_source=linkedinutm_medium=social
模型的構建流程
整個模型的構建遵循一個清晰、迭代的閉環流程：
1. 數據收集：通過在真實機器人硬件和仿真環境中進行遙控操作，收集具身行為數據。
2. 數據處理：處理、標注和篩選數據，以便我們可以輕松地將其整合到機器學習流水線中。
3. 模型訓練：使用所有任務的全部數據來訓練一個神經網絡模型。
4. 評估迭代：通過一系列標準化任務來測試和評估模型的性能。評估結果將直接指導下一輪的數據收集和模型優化，形成一個持續改進的循環。

該模型能夠將機器人傳感器捕捉的圖像、本體感覺（即機器人對自身姿態和位置的感知）以及人類輸入的語言指令，實時轉化為對 Atlas 機器人的精確控制指令（頻率為 30Hz）。
在技術實現上，研究團隊采用了先進的擴散 Transformer 架構，并結合流匹配損失函數進行模型訓練，以確保生成動作的流暢性和準確性。
實踐成果
在一個名為「Spot 車間」的演示任務中，機器人展示了其高度協調的移動與操作能力。整個任務包含三個連續的子任務，機器人僅依靠一個通用的、由語言指令驅動的控制模型便自主完成了全部流程：
1. 從手推車上抓取 Spot 機器狗的腿部零件，將其折疊好，然后精準地放置在貨架上。
2. 接著，抓取面板零件，拉開貨架底層的箱子，并將面板放入其中。
3. 最后，在清空手推車后，機器人轉身處理后方的藍色大箱子，將其中剩余的各類零件分批搬運到指定的翻斗車里。
在這個未經剪輯的端到端視頻中，同一個控制模型便能執行完整的任務序列，其中每個子任務都是通過一個高級語言指令來觸發的。

除了標準任務，研究團隊還探索了數十種更具挑戰性的操作。在 MTS 測試臺上，同一個模型可以完成系繩結、將吧臺凳翻轉過來、展開并鋪平桌布，甚至搬運一個重達 22 磅的汽車輪胎。像處理繩索、布料這類可變形物體的任務，用傳統編程方法實現起來極其困難，但對于 LBM 而言，其學習過程與堆疊積木并無本質區別。

該模型最引人注目的亮點之一是其智能的異常處理能力。當零件不慎掉落或箱蓋意外關閉時，機器人能夠自主做出反應并糾正。這種能力并非來自預先編寫的固定程序，而是模型從包含了各種干擾和恢復場景的訓練數據中自主學習到的。

這意味著，為 Atlas 開發新的復雜行為不再需要頂尖的編程專家和漫長的開發周期。只要能向機器人演示一遍，它就能學會，這為未來大規模擴展機器人的技能庫提供了極具吸引力的前景。
此外，該模型還有一個顯著特點：可以在不重新訓練的情況下，在實際執行任務時靈活調整運行速度。實驗表明，在不顯著影響任務成功率的前提下，可以將機器人的執行速度提升至演示速度的 1.5 到 2 倍。這證明在某些場景下，機器人的操作效率甚至可以超越熟練的人類操作員。

指導研發的三大核心原則
在整個研發過程中，團隊遵循三項核心原則，以確保模型的通用性和可擴展性：
1. 追求最廣泛的任務覆蓋：為了充分發掘人形機器人的潛力，團隊開發了一套頂尖的遙操作系統。該系統結合了 Atlas 強大的模型預測控制器 (MPC) 和定制的 VR 交互界面，使得操作員能夠演示從精細的指尖動作到需要全身協調的大范圍移動等各種復雜行為，從而極大地豐富了訓練數據的多樣性。
2. 訓練通用化的「通才」模型：研究表明，在一個龐大且多樣化的數據集上訓練出的「通才」模型，其泛化能力和魯棒性遠超為特定任務訓練的「專才」模型。因此，該項目致力于訓練一個能響應語言指令的多任務通用模型，并整合了來自不同機器人平臺的數據。這不僅簡化了部署，還能讓不同任務共享學習成果，并為催生涌現行為（即模型自發產生的新能力）創造了可能。
3. 建設支持快速迭代的基礎設施：高效的研發離不開強大的基礎設施。團隊搭建了一套結合了仿真、硬件測試和生產級機器學習平臺的環境，使他們能夠快速進行實驗，科學地評估不同方案的優劣，從而持續、穩定地提升機器人的實際表現。

推薦閱讀

上一篇：三星HBM4樣品已通過英偉達測試，本月預生產

下一篇：馬斯克奧特曼中文對噴， AI 視頻終于從「玩具」變成「工具」