AlphaGo作者領銜,DeepMind新作登Science子刊

AlphaGo作者領銜,DeepMind新作登Science子刊

文章圖片

AlphaGo作者領銜,DeepMind新作登Science子刊

文章圖片

AlphaGo作者領銜,DeepMind新作登Science子刊

文章圖片

AlphaGo作者領銜,DeepMind新作登Science子刊

文章圖片


henry 發自 凹非寺
量子位 | 公眾號 QbitAI
一群機械臂手忙腳亂地自己干活 , 彼此配合、互不碰撞 。
科幻大片場景真的走入現實了 。 優雅 , 實在是優雅 。

△視頻中為4個機械臂 , 在仿真環境下4個安裝在桌子上 , 另外4個安裝在天花板上 。這就是發表在Science子刊Science Robotics上 , 由DeepMind、Intrinsic AI和UCL等研究機構共同提出的最新成果——RoboBallet(機器芭蕾) 。

RoboBallet創新性地將圖神經網絡(GNN)用于強化學習 , 作為其策略網絡和狀態-動作價值估計 , 以解決多機器人(機械臂)協作運動規劃中的復雜問題 。
這一方法最多可以同時控制8個機械臂 , 協調多達56個自由度的配置空間 , 并處理多達40個共享任務 ,每一步規劃僅需0.3毫秒 , 且任務分配和調度完全不受約束 。
值得一提的是 , 這篇論文的通訊作者——Matthew Lai , 可謂是谷歌DeepMind的資深研究員 。 自2016年加入谷歌DeepMind以來 , 他曾參與過AlphaGo、AlphaZero等明星項目 。

利用圖神經網絡與強化學習總的來說 , RoboBallet的核心是把圖神經網絡與強化學習結合起來 , 采用圖神經網絡(GNN)作為策略網絡和狀態-動作價值估計 , 解決了大規模多機器人任務分配、調度和運動規劃的聯合問題 , 實現了在計算上高效、可擴展且能零樣本泛化的高質量軌跡規劃 。
具體來說 , 在現代自動化制造中 , 核心挑戰在于如何讓多個機器人在共享的、充滿障礙物的空間中無碰撞地高效協作 , 以完成大量任務(如焊接、裝配等) 。
這涉及到三個高度復雜的子問題:
任務分配(Task Allocation):決定哪個機器人執行哪個任務 , 以最小化總執行時間 。 任務調度(Task Scheduling):決定任務的執行順序 。 運動規劃(Motion Planning):在關節空間中尋找一條無碰撞路徑 , 使機器人末端執行器移動到目標姿態 。這三個子問題一組合 , 復雜度急劇增加 , 傳統算法在真實場景中往往難以計算可行解 , 工業界目前主要依賴耗時且勞動密集的人工規劃 。
因此 , 為了應對這種高維復雜性 , RoboBallet就被用來在隨機生成的環境中進行任務和運動規劃 , 其能夠為與訓練期間所見環境不同的環境(具有任意障礙物幾何形狀、任務姿態和機器人位置)規劃多臂抓取軌跡 。
為了實現這一點 , RoboBallet在數據表示層面 , 創新性地將整個場景建模為圖結構 。

其中 , 圖中的節點代表場景中的核心實體 , 包括機器人、任務和障礙物 , 而邊(Edge)則表示這些實體之間的關系(例如 , 相對姿態) 。
機器人節點之間存在雙向邊 , 以支持相互協調和避碰 。 而任務節點和障礙物節點到機器人節點則存在單向邊 , 用于向機器人傳遞規劃所需的環境信息(如圖c)
接下來 , RoboBallet使用圖神經網絡(GNN)作為策略網絡 , 通過權重共享來處理不斷變化的圖大小 。 其以觀測圖作為輸入 , 并在每個時間步為所有機器人生成指令關節速度 。 這使得機械臂能夠在只接收原始狀態作為輸入的情況下 , 進行關系和組合推理 。
而在具體的策略學習和評估階段 , RoboBallet通過微調TD3(Twin-Delayed Deep Deterministic Policy Gradient)算法來訓練策略網絡 , 使模型能夠生成多機械臂軌跡 , 同時解決任務分配、調度和運動規劃等子問題 , 使得昂貴的在線計算轉移到了離線訓練階段 。
(注:在此任務中 , 機械臂因成功解決任務和避免碰撞而獲得獎勵)
同時 , 為了解決稀疏獎勵的問題 , RoboBallet還采用了Hindsight Experience Replay方法 , 使模型能夠在沒有人工設計的獎勵函數的情況下高效學習 。
在具體的部署方面 , RoboBallet使用Franka Panda的七自由度機械臂、在隨機障礙物和任務的模擬環境進行訓練 。

為了驗證性能 , 研究團隊在一個包含4(8)個機器人、40個任務和30個障礙物的模擬工作單元中進行測試 , 并與RRT-Connect方法進行比較 。 值得一提的是 , 這一切都只需在一塊 GPU(圖形處理單元)上完成 , 無論是真實的還是模擬的多臂工作單元 。
實驗表明 , RoboBallet在多個關鍵指標上表現出色:
在訓練時間的擴展性方面 , 即使任務數量增加四倍 , RoboBallet收斂所需的訓練步數也只是略有增加 。

在規劃速度方面 。 實驗表明 , 在推理階段 , 即便是包含8個機器人和40個任務的最大場景 , 每個規劃步在NVIDIA A100上只需約0.3毫秒 , 能夠實現10 Hz時間步下超過300倍的實時規劃速度 。
在單個Intel Cascade Lake CPU核心上 , 每個步長大約需要30毫秒 , 在10Hz時間步下仍比實時快約3倍 。 每個規劃步驟包括對整個場景進行一次推理和一次碰撞檢測 。
在多智能體協同方面 , 隨著機器人數量從4個增加到8個, 平均執行時間減少了約60% 。

而在泛化性方面 , 模型在隨機生成的環境中訓練后 , 無需額外訓練即可零樣本遷移(zero-shot)到具有不同機器人位置、障礙物幾何形狀和任務姿態的新環境中 。
最后 , RoboBallet 的高速和可擴展性使其能夠應用于工作單元布局優化(將任務執行時間縮短了33%)、容錯規劃和基于在線感知的重新規劃等新能力 。

參考鏈接
[1
https://x.com/GoogleDeepMind/status/1965040645103407572
— 完 —
量子位 QbitAI · 頭條號簽約
【AlphaGo作者領銜,DeepMind新作登Science子刊】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀