AlphaGo作者領銜，DeepMind新作登Science子刊

2026-03-25 人工智能機器人 alphago deepmind

文章圖片

文章圖片

文章圖片

文章圖片

henry 發自凹非寺
量子位 | 公眾號 QbitAI
一群機械臂手忙腳亂地自己干活，彼此配合、互不碰撞。
科幻大片場景真的走入現實了。優雅，實在是優雅。

△視頻中為4個機械臂，在仿真環境下4個安裝在桌子上，另外4個安裝在天花板上。這就是發表在Science子刊Science Robotics上，由DeepMind、Intrinsic AI和UCL等研究機構共同提出的最新成果——RoboBallet（機器芭蕾）。

RoboBallet創新性地將圖神經網絡（GNN）用于強化學習，作為其策略網絡和狀態-動作價值估計，以解決多機器人（機械臂）協作運動規劃中的復雜問題。
這一方法最多可以同時控制8個機械臂，協調多達56個自由度的配置空間，并處理多達40個共享任務，每一步規劃僅需0.3毫秒，且任務分配和調度完全不受約束。
值得一提的是，這篇論文的通訊作者——Matthew Lai ，可謂是谷歌DeepMind的資深研究員。自2016年加入谷歌DeepMind以來，他曾參與過AlphaGo、AlphaZero等明星項目。

利用圖神經網絡與強化學習總的來說， RoboBallet的核心是把圖神經網絡與強化學習結合起來，采用圖神經網絡（GNN）作為策略網絡和狀態-動作價值估計，解決了大規模多機器人任務分配、調度和運動規劃的聯合問題，實現了在計算上高效、可擴展且能零樣本泛化的高質量軌跡規劃。
具體來說，在現代自動化制造中，核心挑戰在于如何讓多個機器人在共享的、充滿障礙物的空間中無碰撞地高效協作，以完成大量任務（如焊接、裝配等）。
這涉及到三個高度復雜的子問題：
任務分配（Task Allocation）：決定哪個機器人執行哪個任務，以最小化總執行時間。任務調度（Task Scheduling）：決定任務的執行順序。運動規劃（Motion Planning）：在關節空間中尋找一條無碰撞路徑，使機器人末端執行器移動到目標姿態。這三個子問題一組合，復雜度急劇增加，傳統算法在真實場景中往往難以計算可行解，工業界目前主要依賴耗時且勞動密集的人工規劃。
因此，為了應對這種高維復雜性， RoboBallet就被用來在隨機生成的環境中進行任務和運動規劃，其能夠為與訓練期間所見環境不同的環境（具有任意障礙物幾何形狀、任務姿態和機器人位置）規劃多臂抓取軌跡。
為了實現這一點， RoboBallet在數據表示層面，創新性地將整個場景建模為圖結構。

其中，圖中的節點代表場景中的核心實體，包括機器人、任務和障礙物，而邊（Edge）則表示這些實體之間的關系（例如，相對姿態）。
機器人節點之間存在雙向邊，以支持相互協調和避碰。而任務節點和障礙物節點到機器人節點則存在單向邊，用于向機器人傳遞規劃所需的環境信息（如圖c）
接下來， RoboBallet使用圖神經網絡（GNN）作為策略網絡，通過權重共享來處理不斷變化的圖大小。其以觀測圖作為輸入，并在每個時間步為所有機器人生成指令關節速度。這使得機械臂能夠在只接收原始狀態作為輸入的情況下，進行關系和組合推理。
而在具體的策略學習和評估階段， RoboBallet通過微調TD3（Twin-Delayed Deep Deterministic Policy Gradient）算法來訓練策略網絡，使模型能夠生成多機械臂軌跡，同時解決任務分配、調度和運動規劃等子問題，使得昂貴的在線計算轉移到了離線訓練階段。
（注：在此任務中，機械臂因成功解決任務和避免碰撞而獲得獎勵）
同時，為了解決稀疏獎勵的問題， RoboBallet還采用了Hindsight Experience Replay方法，使模型能夠在沒有人工設計的獎勵函數的情況下高效學習。
在具體的部署方面， RoboBallet使用Franka Panda的七自由度機械臂、在隨機障礙物和任務的模擬環境進行訓練。

為了驗證性能，研究團隊在一個包含4（8）個機器人、40個任務和30個障礙物的模擬工作單元中進行測試，并與RRT-Connect方法進行比較。值得一提的是，這一切都只需在一塊 GPU（圖形處理單元）上完成，無論是真實的還是模擬的多臂工作單元。
實驗表明， RoboBallet在多個關鍵指標上表現出色：
在訓練時間的擴展性方面，即使任務數量增加四倍， RoboBallet收斂所需的訓練步數也只是略有增加。

在規劃速度方面。實驗表明，在推理階段，即便是包含8個機器人和40個任務的最大場景，每個規劃步在NVIDIA A100上只需約0.3毫秒，能夠實現10 Hz時間步下超過300倍的實時規劃速度。
在單個Intel Cascade Lake CPU核心上，每個步長大約需要30毫秒，在10Hz時間步下仍比實時快約3倍。每個規劃步驟包括對整個場景進行一次推理和一次碰撞檢測。
在多智能體協同方面，隨著機器人數量從4個增加到8個，平均執行時間減少了約60% 。

而在泛化性方面，模型在隨機生成的環境中訓練后，無需額外訓練即可零樣本遷移（zero-shot）到具有不同機器人位置、障礙物幾何形狀和任務姿態的新環境中。
最后， RoboBallet 的高速和可擴展性使其能夠應用于工作單元布局優化（將任務執行時間縮短了33%）、容錯規劃和基于在線感知的重新規劃等新能力。

參考鏈接
[1
https://x.com/GoogleDeepMind/status/1965040645103407572
— 完 —
量子位 QbitAI · 頭條號簽約
【AlphaGo作者領銜，DeepMind新作登Science子刊】關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：5999 元起！iPhone 17 正式發布，今年升級太猛了

下一篇：嘉實多端到端液冷解決方案中國首發，以全生命周期服務推動數據中心升級