具身智能的GPT時刻?高德連發兩個全面SOTA的ABot具身基座模型

具身智能的GPT時刻?高德連發兩個全面SOTA的ABot具身基座模型

文章圖片

具身智能的GPT時刻?高德連發兩個全面SOTA的ABot具身基座模型

文章圖片

具身智能的GPT時刻?高德連發兩個全面SOTA的ABot具身基座模型

文章圖片

具身智能的GPT時刻?高德連發兩個全面SOTA的ABot具身基座模型

文章圖片


機器之心編輯部
過去幾年 , 大模型把自然語言處理徹底重塑了 。 GPT 出來之前 , NLP 領域的狀態是:每個任務一套模型 , 每個場景一批數據 , 每個公司一條流水線 , 互不通用 , 邊界清晰 。 GPT 之后 , 這套邏輯被一個預訓練底座 + 任務微調的范式整個替換掉了 。
機器人行業今天的處境 , 像極了 2019 年的 NLP 。
不同廠商的不同形態機器人 , 用著各自獨立的動作表示體系 , 數據互不兼容 , 模型無法復用 。 做一個新場景 , 基本上要從頭搭一套…… 當模型與數據被深度綁定在特定形態和特定場景中 , 機器人所展現出的能力往往更像是一種精心調校的表演 , 而不是可以遷移、可以泛化的通用技能 。
一個只能在特定場景跳舞的機器人 , 和一個可以在真實生活幫你占座的機器人 , 你會選哪個?
【具身智能的GPT時刻?高德連發兩個全面SOTA的ABot具身基座模型】近日 , 阿里巴巴集團旗下高德的 ABot 系列具身基座模型的發布 , 終于讓行業看到了機器人進入開放世界的可能 。
ABot 系列包括兩款基座模型:ABot-M0、ABot-N0 , 前者負責機器人的「手」(操作) , 后者負責機器人的「腿」(導航) 。
這兩款模型各自在其領域補齊了行業能力缺口 , ABot-M0 讓不同形態的機器人都能基于統一底座完成精細操作 , ABot-N0 則讓機器人首次具備在真實開放環境中執行長程復雜任務的能力 。 它們在具身操作和具身導航做到全面 SOTA , 霸榜了 10 項全球權威評測 。
但更重要的不是這些數字 , 而是具身智能首次在操作和導航兩條核心鏈路 , 分別擁有了統一底座 。 開發者不需要再為每個機器人、場景重做一套系統 , 而是基于這兩個底座去做進一步研究 。
如果說 GPT 的出現讓 NLP 從任務專用模型轉向通用基座 , 那么 ABot 系列的發布 , 標志著具身智能正在經歷同樣的范式躍遷 , 從為每個機器人、每個場景定制專用系統 , 轉向用統一模型覆蓋多樣化任務的工程級底座時代 。
具身智能 , 為什么遲遲沒有 GPT 時刻
語言模型之所以能夠演化出一種通用能力底座 , 是因為它們具有統一表示(token)、統一架構(基本基于 Transformer)以及可規?;念A訓練 。 從而形成可復用、可遷移、可持續進化的能力底座 。
相比之下 , 具身智能長期缺失的 , 恰恰是這種「統一」 。 過去幾年 , 行業始終困在幾個結構性瓶頸之中 。
首先是數據層面的差異 。 語言模型的訓練數據來自互聯網文本 , 規模龐大、結構卻很統一 , 通過統一的 token 表示實現規?;柧?, 因此可以在同一架構上持續堆數據、堆算力 。 而機器人的訓練數據則是操作軌跡、導航路徑和三維場景信息 , 這類數據采集成本高、格式各異、天然碎片化 , 遠不像文本那樣可以直接匯聚成統一語料 , 更重要的是他們的本體還不同 , 機械臂、機器狗和人形機器人的數據無法通用 。
本質在于動作表示和空間建模的不統一 。 在具身領域 , 不同機器人使用不同的控制頻率、坐標體系和動作表達方式:有的以關節角為核心 , 有的基于末端執行器位姿 , 有的采用絕對坐標 。 這些差異看似只是工程實現方式的不同 , 實際上卻決定了數據能否共享、模型能否遷移 。 一套模型在某種硬件形態上訓練完成 , 并不意味著可以直接遷移到另一平臺 , 因為動作空間本身并不兼容 。
動作表示難以統一 , 使得行業即便積累了大量軌跡數據 , 也難以整合為規?;柧毜幕?。 揮氪送?, 空間理解能力的不足進一步加劇了這一問題 。 機器人面對的是連續、高維、動態變化的三維物理空間 , 它不僅要看見 , 還要理解空間結構、物體關系與可行動區域 。 缺乏穩定的三維語義建模能力 , 使模型在復雜或長程任務中容易失效 , 魯棒性不足 。
此外 , 對具身來說非常重要的導航能力仍然高度碎片化 。 相比固定工位上的機械操作 , 移動意味著要面對動態變化的環境、隨機出現的干擾 , 以及跨場景的任務切換 。 無論是跨樓層送物、在商場中跟隨服務 , 還是城市級長程導航 , 導航都是具身智能邁向通用行動能力的前提 。
但現實是 , 很多主流方法離散且碎片:一套模型用于位置導航 , 另一套模型用于語義導航 , 缺什么再補充什么 。 每個任務都能在局部指標上取得一定成績 , 卻難以形成統一能力框架 , 機器訓練和適用也就無從談起 。
也正是在這樣的背景下 , 我們很難看到具身智能可以像語言模型一樣擁有可復用的具身底座 。
從碎片化定制到底座化復用
而高德天然具備解決這些問題的能力 , 地圖與位置服務多年沉淀的大規模真實 3D 場景與空間語義資產 , 恰恰是具身導航中最稀缺的資源;而長期面向億級用戶的工程落地經驗 , 則意味著它更熟悉如何把系統真正跑在真實環境里 。
ABot-M0:先動作語言統一 , 再談復用
具身操作的核心難題 , 用一句話說就是:怎么讓同一套模型 , 駕馭形態各異的機器人 , 完成各種各樣的操作任務 。
ABot-M0 的解法是用「動作語言統一」(把異構機器人的動作轉換為統一表示)降低數據割裂與訓練成本 。 為了實現這一目標 , ABot-M0 從「數據統一 — 算法革新 — 空間感知」三個方面進行了系統性重構 。

技術上 , 它通過統一坐標系、控制頻率和增量式動作建模 , 把來自不同平臺的操作軌跡數據打通 , 并構建了一個時長超過 9500 小時包含 600 多萬條軌跡、涉及 20 多種具身形態的混合訓練集 。 更關鍵的是 , 這套數據不是靠私有采集堆出來的 , 完全基于公開數據 , 這也意味著這條路徑在原則上通用的 。
此外 , 為了解決動作格式、坐標系和采樣率的不一致 , 高德還定義了標準化的預處理流水線:
所有動作均轉換為末端執行器坐標系下的增量動作(delta actions) 。 旋轉采用旋轉向量編碼以避免奇異性 。 應用「pad-to-dual」策略 , 在共享框架內支持單臂和雙臂任務 。 訓練期間在各數據集間進行均勻采樣 , 以平衡任務和具身的分布 。這種統一的數據基礎打破了數據集間的壁壘 , 通過對齊各來源的時空結構 , 實現了穩健的跨具身泛化 。
算法層面 , ABot-M0 提出了 AML(Action Manifold Learning , 動作流形學習) 。 這個方法背后有一個直覺上成立的假設:真實有效的機器人動作 , 并不是隨機分布在所有可能的動作空間里 , 而是集中在一個受物理規律和任務約束共同塑造的低維流形上 。 在這個流形上學習 , 比在全空間暴力搜索更高效 , 生成的動作序列也更符合物理規律、更穩定 。

為增強空間感知 , ABot-M0 還引入 3D 感知模塊 , 增強模型對前后、遠近、遮擋等空間語義的理解 , 在復雜環境中實現更精準的操作決策 。
效果上 , 在 Libero、Libero-Plus、RoboCasa 基準測試中 , ABot-M0 在包含復雜任務組合與動態場景擾動的設定下 , 平均任務成功率均達到 SOTA 。 在高難度的 Libero-Plus 基準上 , ABot-M0 達到了 80.5% 的任務成功率 , 比此前最強方案 pi0 提升近 30% 。 這個提升幅度在工程上是有意義的 , 從 50% 到 65% 可能只是參數調整 , 從 50% 到 80% 意味著系統性的能力躍升 。

但這次發布更值得關注的 , 不是這個分數本身 , 而是它背后隱含的工程邏輯:一旦動作表示被統一 , 數據就可以跨平臺積累 , 模型就可以持續進化 , 部署成本就會系統性下降 。 這好比一個正向飛輪 , 一旦啟動 , 效果會越來越好 。
具身智能的 「GPT」 時刻 , ABot-N0 攻克具身導航核心難題
如果說 ABot-M0 解決的是「手」的問題 , ABot-N0 要解決的是「腿」的導航問題 , 更準確的說 , 是機器人如何在開放的真實世界里自主移動、理解環境、完成長程任務 。
這個問題比操作更難 , 因為它的不確定性更高 。 操作任務通常在相對受控的近場環境里 , 機器人面對的是相對固定和理想的物理環境;導航任務面對的是動態開放世界 , 場景會變 , 人會出現 , 路線會動 , 指令需要實時拆解和調整 。 更關鍵的是 , 長程任務的失敗往往是級聯的 , 一個子任務失敗 , 如果沒有容錯機制 , 后續全部崩潰 。
導航 , 這個屬于高德的「舒適區」 , 想要在具身智能上實現突破 , 遠比想象的困難 。
當前行業的主流做法是任務拆分:針對不同類型的導航任務(物體導航、語言指令跟隨、社交導航……)分別訓練專用模型 , 各自優化 。 這個做法有效 , 但存在一個根本性的上限:專用模型無法從異構數據中提取統一的物理先驗 , 泛化能力受限 , 遇到訓練分布之外的場景就會失效 。
ABot-N0 的做法是全任務一統:在單一 VLA(視覺 - 語言 - 動作)架構內 , 實現五大核心導航任務的「大一統」:
點位導航(Point-Goal):精確到達度量坐標 , 實現基礎避障與移動; 目標物導航(Object-Goal):在未知環境中通過語義推理搜索并定位特定物體; 指令跟隨(Instruction-Following):嚴密對齊復雜的長程自然語言路徑; POI 導航(POI-Goal):識別興趣點并精準進入物理入口 , 解決「最后幾米」的室內外銜接難題; 行人跟隨(Person-Following):實現對動態目標的實時跟蹤 , 賦予機器人社會化交互能力 。
ABot-N0 的數據、性能、任務概覽
相比只能覆蓋部分任務類型的導航模型 , ABot-N0 在單一模型中統一五類核心導航任務 , 讓長程復雜任務的執行具備了結構上的可行性 。 它不再為每種任務單獨設計一套系統 , 而是在同一能力框架下完成不同約束條件下的表達 。
這本質上是一個更激進的假設 , 機器人在世界里移動和理解空間 , 底層邏輯是統一的 , 不同任務只是這個統一能力在不同約束條件下的表達 , 在具體執行中 , 機器只需在模型的調動下拆解任務 , 而非在任務的驅動下調動模型 。
在技術實現上 , ABot-N0 打破了傳統的任務隔離方法 , 采用層次化的「大腦 - 動作」設計哲學 。
認知大腦:基于預訓練 LLM , 負責深度語義理解、任務拆解與空間推理 , 理解「幫我看看門口有沒有快遞」這種復雜意圖 。 動作專家:利用流匹配技術生成精確軌跡 , 讓機器人動作不再生硬 , 能夠像人類一樣在復雜環境中穩定、柔順地穿行 。
數據側是另一個重量級投入:高德構建了約 8000 個高保真 3D 場景和近 1700 萬條專家示例的導航數據引擎 。 這個規模不是隨便能堆出來的 , 背后是高德地圖多年積累的時空數據資產 , 3D 場景建模的成本和質量 , 普通機構幾乎不可能復現 。

評測結果是 , 其在 CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench 七大權威基準測試中全面刷新了紀錄 。 其中 SocNav 成功率提升 40.5% , HM3D-OVON 物體導航成功率提升 8.8% 。 SocNav 這個方向尤其值得關注 , 機器人在有人的動態環境里安全、自然地移動 , 是服務機器人規?;逃玫谋匾疤?, 之前一直是這個領域的硬骨頭 。

Point-Goal 任務:在 CityWalker 及 SocNav 上分別進行開環和閉環評測
但最終讓 ABot-N0 從實驗室走向現實的 , 是那套 Agentic Navigation System 框架 , 這是一個把讀懂指令→任務拆解→執行→感知→記憶→決策與糾錯串成閉環的代理式系統 。 高德用全球首創的代理系統跨越了從論文到產品之間那道最難的墻 。
高德憑什么做成這件事?
具身智能這條賽道進入者不少 , 為什么是高德先跑通了?
算法是一方面 , 但也不全是 , 因為算法是可以追趕的 , SOTA 只是實時的數據表征 。 高德真正的護城河在于兩點:多年的空間智能探索、大規模高質量數據與工程化落地能力 。
高德做地圖和位置服務超過 20 年 。 這 20 年積累的 , 不只是道路網絡數據 , 而是大規模真實世界的 3D 場景理解能力:建筑物的空間結構、室內室外的語義信息、人流動線的模式…… 這些東西 , 恰好是具身導航模型最需要、也最難靠短期采集補上的訓練數據 。
把地圖數據資產脫敏轉化為具身智能的訓練基礎 , 這個轉化本身就是一種核心能力 。 高保真 3D 場景、專家導航示例 , 模型建立并非資本驅動 , 它需要多年的數據積累、場景建模工程能力 , 以及把這些數據組織成有效訓練集的系統工程 。
操作側同樣如此 。 ABot-M0 對 600 萬條開源軌跡數據進行統一清洗與標準化 , 看起來是數據整合問題 , 實則需要對操作任務的結構、動作表示的差異、不同機器人形態之間的映射關系有深入理解 。 異構數據的統一 , 本質上是對任務抽象能力的體現 , 而不是簡單的數據拼接 。
如果說數據資產構成了訓練基礎 , 那么工程化能力則決定了模型能否真正落地 。
ABot-N0 已實現在真實四足機器人平臺的部署 , 并在邊緣設備上實現高效推理與閉環控制 。 這意味著模型不僅能在 GPU 集群中跑通 , 還能在算力受限、功耗受限、延遲敏感的邊緣環境中穩定運行 。
這一步其實非常關鍵 。 很多具身團隊擅長研究范式創新 , 卻未必擅長把系統真正放進真實世界 。 高德的基因恰恰偏向工程 , 億級用戶規模的地圖服務 , 要求系統長期穩定運行 。 把這種工程經驗遷移到具身系統中 , 使得可部署、可持續運行成為設計目標 , 而不是附加項 , 而這也恰好解決了具身智能進入開放物理世界的核心命題 。
因此 , 高德的差異化并不在于某一次算法領先 , 而在于數據與工程能力體系的集中體現 。 當空間資產、數據治理能力與真實部署經驗疊加在一起 , 具身底座才真正具備長期競爭力 。
結語
ABot 系列的發布 , 或許將在 1-2 年內帶來直接改變:統一數據格式和預訓練權重 , 讓中小團隊無需從零積累百萬級軌跡 。 過去需要 6 個月、數百萬元成本的數據采集與訓練 , 現在可能縮短到數周、數十萬元的微調成本 。
開發范式也將從「重寫整套感知 - 規劃 - 控制系統」轉向「基于底座模型做場景化 fine-tune」 。 或許一個五人小團隊 , 可能在幾周內完成過去需要數十人、數月交付的定制項目 。
更遠的未來 , 機器人能力可能變成可組合的 API:就像今天開發者調用 GPT 生成文案、DALL-E 生成圖片、Sora 生成視頻 , 未來可能直接調用 ABot 完成物理世界任務:「幫我整理書架」「去倉庫盤點庫存」「在工廠巡檢設備異?!?。
當然 , 硬件成本、安全驗證、數據閉環等問題仍然存在 , 具身智能距離真正普及還有不短的路 。 但當統一表示開始降低訓練門檻 , 當模型可以在真實環境中持續運行 , 這個行業至少邁出了從定制工程走向通用底座的一步 。
它未必是終局 , 但方向已經變得更清晰了 。
下附此次高德發布的兩款具身基座模型的項目主頁及技術報告:
ABot-M0 項目主頁|https://amap-cvlab.github.io/ABot-Manipulation/ ABot-M0 技術報告|https://github.com/amap-cvlab/ABot-Manipulation/blob/main/assets/ABot-M0_Technical_Report.pdf ABot-N0 項目主頁:https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/ ABot-N0 技術報告:https://github.com/amap-cvlab/ABot-Navigation/blob/ABot-N0/ABot-N0_Technical_Report.pdf

    推薦閱讀