
文章圖片

文章圖片

文章圖片

文章圖片

機器狗搬輪胎 , “五只腿”齊發力!
在波士頓動力人工智能研究所的最新方法——結合采樣與學習的動態全身操作中 , 波士頓動力的機器狗Spot最快僅用3.7秒就能搬起輪胎 。
搬運的輪胎重達15公斤 , 相當于Spot自身重量的一半(32.7千克) , 并遠超其最大臂力 。
而且 , 搬起輪胎后 , 它還能將輪胎滾動到指定位置 。
甚至還能把一個輪胎疊到另一個輪胎上面(還會用頭幫忙頂一下) 。
這一方法克服了傳統操作策略(如搖操)在不同機器人形態學結構上的遷移限制 , 并通過分層控制實現了機器狗四肢與全身的協調動力學操作 。
網友表示 , 狗子快去回收站去搬輪胎吧!
這是怎么做到的?
結合采樣與學習的動態全身操作總的來說 , 結合采樣與學習的動態全身操作(Combining Sampling and Learning for Dynamic Whole-Body Manipulation)利用強化學習與基于采樣的控制(sampling-based control)相結合的方法 , 使機器人能夠執行需要手臂、雙腿和軀干協同配合的動態力交互任務 。
為應對復雜的操作任務 , 研究采用了分層控制(hierarchical control)方法 , 將控制問題劃分為兩個互補且同步的層級 。
在低層 , 基于強化學習的運動策略直接控制電機力矩 , 以實現平衡、穩定性與運動執行 。
高層控制則根據任務類型而有所不同:
對于輪胎扶正、拖拽與堆疊等任務 , 系統采用基于采樣的控制 , 通過模擬潛在的未來情境來發現最優操作策略 。
對于輪胎滾動任務 , 則使用強化學習來捕捉維持物體穩定運動所需的細微動力學特征與反應性控制機制 。
所有的高層方法 , 最終都會輸出包括底盤速度、姿態參數(包括滾轉、俯仰、高度 )、腿部控制以及手臂動作等指令 。
在采樣控制中 , 采樣控制器通過并行模擬多個未來情境 , 尋找最有效的操作策略 , 從而選擇最能實現任務目標的動作 。
對于那些需要精確施力和多接觸協調的任務 , 系統會運行32個并行CPU線程 , 每個線程使用MuJoCo模擬未來幾秒內的不同動作序列 。
與直接采樣原始軌跡不同 , 研究在樣條曲線空間(space of splines)中進行采樣 , 這種方式能生成更平滑、更自然的運動軌跡 , 同時降低搜索空間的維度 。
該控制器展現出源自物理仿真的機會性行為 。 在輪胎扶正過程中 , 控制器自主發現了復雜的操作策略:機器人通過Spot Arm與前腿動作的協調 , 產生足夠的杠桿力以抬起沉重的輪胎 。
為了適應多樣的初始構型 , 機器人可能使用手臂、前腿、身體 , 或這些部位的組合來靈活調整操作策略 。
值得一提的是 , 系統并未預設任何固定的操作模式 。 這種多肢體、多接觸的行為 , 是在采樣過程中優化自然涌現的結果 , 而非通過顯式編程設定接觸順序實現的 。
此外 , 控制器會根據實驗室空間中機器人與輪胎的當前構型動態調整策略 。
在具體的強化學習策略方面 , 研究通過PPO算法在IsaacLab中訓練得到的運動策略 。
這一策略為高層控制提供了穩健的低層控制抽象 , 能夠在多種操作場景中保持平衡 , 從而使高層控制問題更易處理 。
在輪胎滾動任務中 , 研究利用強化學習來應對難以精確建模的復雜摩擦與接觸動力學 。
其采用非對稱演員-評論家(asymmetric actor-critic architecture)方法 , 在單塊GPU上經過約24小時訓練 , 得到高層技能策略 。
該策略接收的觀測狀態包括機器人、輪胎與目標之間的相對姿態 , 以及關節位置與速度 。 獎勵函數則根據物體幾何形狀及其與環境的空間關系 , 計算期望的軀干與末端執行器位置 , 引導策略學習達到目標姿態 。
訓練得到的輪胎滾動策略使機器人能夠動態調整其軀干與Spot Arm的位置 , 以穩定控制滾動的輪胎 , 防止其傾倒 , 并將其引導至目標位置 。
最后 , 為解決從仿真到現實的差距 , 訓練過程中引入了隨機化 , 包括對物體的質量、摩擦系數與形狀等屬性進行隨機變化 。
實測表現正如我們開頭提到的 , 在輪胎扶正任務中 , 機器人最佳成績為3.7秒 , 平均每個輪胎用時5.9秒 , 幾乎達到人類在該任務中的操作速度 。
這一表現遠超傳統的準靜態假設 。
在準靜態假設下 , 機器人操作物體時速度很慢 , 加速度產生的慣性被忽略 , 關節驅動力矩主要依賴靜態平衡 。
而在這篇研究中 , 機器狗能夠高效搬運重達15千克的輪胎——遠超其夾持器的峰值舉升能力(11 千克)和持續能力(5 千克) 。
這說明機器人通過動態協調全身動作 , 將運動與操作緊密耦合 , 拓展了操作范圍 , 超越了傳統的拾取與放置方式 。
此外 , 研究表明 , 將高層控制與低層控制分離能夠顯著簡化控制問題 。
高層控制器無需在擁有數十個自由度的系統中推理關節力矩、接觸力以及穩定性約束 , 而是僅在一個簡化的動作空間中工作 , 該空間由底盤速度和姿態參數構成 , 其將執行細節交由運動控制器處理 , 從而極大降低了復雜度 。
分層控制架構使得高層控制器能夠專注于任務完成 , 而無需顯式地推理平衡約束或地面接觸 。
【波士頓動力狗gogo回來了,“五條腿”協同發力】由此 , 學習得到的運動抽象層讓高層控制更簡單、計算更可行 , 控制器只需專注于“在哪里”和“如何操作物體” , 無需處理復雜的低層動力學細節 。
參考鏈接:
[1
https://rai-inst.com/resources/blog/combining-sampling-and-learning-for-dynamic-whole-body-manipulation/
[2
https://x.com/rai_inst/status/1978113805604258161
本文來自微信公眾號“量子位” , 作者:henry, 36氪經授權發布 。
推薦閱讀
- SpotitEarly訓練狗狗與AI協作嗅探癌癥獲2030萬美元融資
- 搜狗公司換帥:葉駿卸任董事長及法定代表人,魯劍接棒,曾任騰訊輸入法部負責人
- 機器狗腿被鋸了也能繼續走!最新機器人大腦來自320億估值獨角獸
- 被指“暗中”篡改瀏覽器配置!搜狗輸入法客服:系測試功能異常,已修復
- 火絨報告:搜狗輸入法云控下發模塊 暗改瀏覽器配置!
- 劉強東“請客”菜單:一共15道菜,現場做“黃狗豬頭肉”,還有品鑒茅臺
- 發展引擎動力足!“工業互聯網+AI”助力傳統制造業更“智慧”
- 魔法原子用機器人與機器狗為IFA 2025來了點“未來震撼”
- 他們做出了全球跑得最快的機器狗
- 經濟熱力站|松延動力:機器人“小孩哥”成為世界冠軍
