具身智能的GPT時刻？高德連發兩個全面SOTA的ABot具身基座模型

2026-03-29 人工智能 github 機器人算法高德地圖

文章圖片

文章圖片

文章圖片

文章圖片

機器之心編輯部
過去幾年，大模型把自然語言處理徹底重塑了。 GPT 出來之前， NLP 領域的狀態是：每個任務一套模型，每個場景一批數據，每個公司一條流水線，互不通用，邊界清晰。 GPT 之后，這套邏輯被一個預訓練底座 + 任務微調的范式整個替換掉了。
機器人行業今天的處境，像極了 2019 年的 NLP 。
不同廠商的不同形態機器人，用著各自獨立的動作表示體系，數據互不兼容，模型無法復用。做一個新場景，基本上要從頭搭一套…… 當模型與數據被深度綁定在特定形態和特定場景中，機器人所展現出的能力往往更像是一種精心調校的表演，而不是可以遷移、可以泛化的通用技能。
一個只能在特定場景跳舞的機器人，和一個可以在真實生活幫你占座的機器人，你會選哪個？
【具身智能的GPT時刻？高德連發兩個全面SOTA的ABot具身基座模型】近日，阿里巴巴集團旗下高德的 ABot 系列具身基座模型的發布，終于讓行業看到了機器人進入開放世界的可能。
ABot 系列包括兩款基座模型：ABot-M0、ABot-N0 ，前者負責機器人的「手」（操作），后者負責機器人的「腿」（導航）。
這兩款模型各自在其領域補齊了行業能力缺口， ABot-M0 讓不同形態的機器人都能基于統一底座完成精細操作， ABot-N0 則讓機器人首次具備在真實開放環境中執行長程復雜任務的能力。它們在具身操作和具身導航做到全面 SOTA ，霸榜了 10 項全球權威評測。
但更重要的不是這些數字，而是具身智能首次在操作和導航兩條核心鏈路，分別擁有了統一底座。開發者不需要再為每個機器人、場景重做一套系統，而是基于這兩個底座去做進一步研究。
如果說 GPT 的出現讓 NLP 從任務專用模型轉向通用基座，那么 ABot 系列的發布，標志著具身智能正在經歷同樣的范式躍遷，從為每個機器人、每個場景定制專用系統，轉向用統一模型覆蓋多樣化任務的工程級底座時代。
具身智能，為什么遲遲沒有 GPT 時刻
語言模型之所以能夠演化出一種通用能力底座，是因為它們具有統一表示（token）、統一架構（基本基于 Transformer）以及可規?；念A訓練。從而形成可復用、可遷移、可持續進化的能力底座。
相比之下，具身智能長期缺失的，恰恰是這種「統一」。過去幾年，行業始終困在幾個結構性瓶頸之中。
首先是數據層面的差異。語言模型的訓練數據來自互聯網文本，規模龐大、結構卻很統一，通過統一的 token 表示實現規?；柧?，因此可以在同一架構上持續堆數據、堆算力。而機器人的訓練數據則是操作軌跡、導航路徑和三維場景信息，這類數據采集成本高、格式各異、天然碎片化，遠不像文本那樣可以直接匯聚成統一語料，更重要的是他們的本體還不同，機械臂、機器狗和人形機器人的數據無法通用。
本質在于動作表示和空間建模的不統一。在具身領域，不同機器人使用不同的控制頻率、坐標體系和動作表達方式：有的以關節角為核心，有的基于末端執行器位姿，有的采用絕對坐標。這些差異看似只是工程實現方式的不同，實際上卻決定了數據能否共享、模型能否遷移。一套模型在某種硬件形態上訓練完成，并不意味著可以直接遷移到另一平臺，因為動作空間本身并不兼容。
動作表示難以統一，使得行業即便積累了大量軌跡數據，也難以整合為規?；柧毜幕?。揮氪送?，空間理解能力的不足進一步加劇了這一問題。機器人面對的是連續、高維、動態變化的三維物理空間，它不僅要看見，還要理解空間結構、物體關系與可行動區域。缺乏穩定的三維語義建模能力，使模型在復雜或長程任務中容易失效，魯棒性不足。
此外，對具身來說非常重要的導航能力仍然高度碎片化。相比固定工位上的機械操作，移動意味著要面對動態變化的環境、隨機出現的干擾，以及跨場景的任務切換。無論是跨樓層送物、在商場中跟隨服務，還是城市級長程導航，導航都是具身智能邁向通用行動能力的前提。
但現實是，很多主流方法離散且碎片：一套模型用于位置導航，另一套模型用于語義導航，缺什么再補充什么。每個任務都能在局部指標上取得一定成績，卻難以形成統一能力框架，機器訓練和適用也就無從談起。
也正是在這樣的背景下，我們很難看到具身智能可以像語言模型一樣擁有可復用的具身底座。
從碎片化定制到底座化復用
而高德天然具備解決這些問題的能力，地圖與位置服務多年沉淀的大規模真實 3D 場景與空間語義資產，恰恰是具身導航中最稀缺的資源；而長期面向億級用戶的工程落地經驗，則意味著它更熟悉如何把系統真正跑在真實環境里。
ABot-M0：先動作語言統一，再談復用
具身操作的核心難題，用一句話說就是：怎么讓同一套模型，駕馭形態各異的機器人，完成各種各樣的操作任務。
ABot-M0 的解法是用「動作語言統一」（把異構機器人的動作轉換為統一表示）降低數據割裂與訓練成本。為了實現這一目標， ABot-M0 從「數據統一 — 算法革新 — 空間感知」三個方面進行了系統性重構。

技術上，它通過統一坐標系、控制頻率和增量式動作建模，把來自不同平臺的操作軌跡數據打通，并構建了一個時長超過 9500 小時包含 600 多萬條軌跡、涉及 20 多種具身形態的混合訓練集。更關鍵的是，這套數據不是靠私有采集堆出來的，完全基于公開數據，這也意味著這條路徑在原則上通用的。
此外，為了解決動作格式、坐標系和采樣率的不一致，高德還定義了標準化的預處理流水線：
所有動作均轉換為末端執行器坐標系下的增量動作（delta actions）。旋轉采用旋轉向量編碼以避免奇異性。應用「pad-to-dual」策略，在共享框架內支持單臂和雙臂任務。訓練期間在各數據集間進行均勻采樣，以平衡任務和具身的分布。這種統一的數據基礎打破了數據集間的壁壘，通過對齊各來源的時空結構，實現了穩健的跨具身泛化。
算法層面， ABot-M0 提出了 AML（Action Manifold Learning ，動作流形學習）。這個方法背后有一個直覺上成立的假設：真實有效的機器人動作，并不是隨機分布在所有可能的動作空間里，而是集中在一個受物理規律和任務約束共同塑造的低維流形上。在這個流形上學習，比在全空間暴力搜索更高效，生成的動作序列也更符合物理規律、更穩定。

為增強空間感知， ABot-M0 還引入 3D 感知模塊，增強模型對前后、遠近、遮擋等空間語義的理解，在復雜環境中實現更精準的操作決策。
效果上，在 Libero、Libero-Plus、RoboCasa 基準測試中， ABot-M0 在包含復雜任務組合與動態場景擾動的設定下，平均任務成功率均達到 SOTA 。在高難度的 Libero-Plus 基準上， ABot-M0 達到了 80.5% 的任務成功率，比此前最強方案 pi0 提升近 30% 。這個提升幅度在工程上是有意義的，從 50% 到 65% 可能只是參數調整，從 50% 到 80% 意味著系統性的能力躍升。

但這次發布更值得關注的，不是這個分數本身，而是它背后隱含的工程邏輯：一旦動作表示被統一，數據就可以跨平臺積累，模型就可以持續進化，部署成本就會系統性下降。這好比一個正向飛輪，一旦啟動，效果會越來越好。
具身智能的「GPT」時刻， ABot-N0 攻克具身導航核心難題
如果說 ABot-M0 解決的是「手」的問題， ABot-N0 要解決的是「腿」的導航問題，更準確的說，是機器人如何在開放的真實世界里自主移動、理解環境、完成長程任務。
這個問題比操作更難，因為它的不確定性更高。操作任務通常在相對受控的近場環境里，機器人面對的是相對固定和理想的物理環境；導航任務面對的是動態開放世界，場景會變，人會出現，路線會動，指令需要實時拆解和調整。更關鍵的是，長程任務的失敗往往是級聯的，一個子任務失敗，如果沒有容錯機制，后續全部崩潰。
導航，這個屬于高德的「舒適區」，想要在具身智能上實現突破，遠比想象的困難。
當前行業的主流做法是任務拆分：針對不同類型的導航任務（物體導航、語言指令跟隨、社交導航……）分別訓練專用模型，各自優化。這個做法有效，但存在一個根本性的上限：專用模型無法從異構數據中提取統一的物理先驗，泛化能力受限，遇到訓練分布之外的場景就會失效。
ABot-N0 的做法是全任務一統：在單一 VLA（視覺 - 語言 - 動作）架構內，實現五大核心導航任務的「大一統」：
點位導航（Point-Goal）：精確到達度量坐標，實現基礎避障與移動；目標物導航（Object-Goal）：在未知環境中通過語義推理搜索并定位特定物體；指令跟隨（Instruction-Following）：嚴密對齊復雜的長程自然語言路徑； POI 導航（POI-Goal）：識別興趣點并精準進入物理入口，解決「最后幾米」的室內外銜接難題；行人跟隨（Person-Following）：實現對動態目標的實時跟蹤，賦予機器人社會化交互能力。
ABot-N0 的數據、性能、任務概覽
相比只能覆蓋部分任務類型的導航模型， ABot-N0 在單一模型中統一五類核心導航任務，讓長程復雜任務的執行具備了結構上的可行性。它不再為每種任務單獨設計一套系統，而是在同一能力框架下完成不同約束條件下的表達。
這本質上是一個更激進的假設，機器人在世界里移動和理解空間，底層邏輯是統一的，不同任務只是這個統一能力在不同約束條件下的表達，在具體執行中，機器只需在模型的調動下拆解任務，而非在任務的驅動下調動模型。
在技術實現上， ABot-N0 打破了傳統的任務隔離方法，采用層次化的「大腦 - 動作」設計哲學。
認知大腦：基于預訓練 LLM ，負責深度語義理解、任務拆解與空間推理，理解「幫我看看門口有沒有快遞」這種復雜意圖。動作專家：利用流匹配技術生成精確軌跡，讓機器人動作不再生硬，能夠像人類一樣在復雜環境中穩定、柔順地穿行。
數據側是另一個重量級投入：高德構建了約 8000 個高保真 3D 場景和近 1700 萬條專家示例的導航數據引擎。這個規模不是隨便能堆出來的，背后是高德地圖多年積累的時空數據資產， 3D 場景建模的成本和質量，普通機構幾乎不可能復現。

評測結果是，其在 CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench 七大權威基準測試中全面刷新了紀錄。其中 SocNav 成功率提升 40.5% ， HM3D-OVON 物體導航成功率提升 8.8% 。 SocNav 這個方向尤其值得關注，機器人在有人的動態環境里安全、自然地移動，是服務機器人規?；逃玫谋匾疤?，之前一直是這個領域的硬骨頭。

Point-Goal 任務：在 CityWalker 及 SocNav 上分別進行開環和閉環評測
但最終讓 ABot-N0 從實驗室走向現實的，是那套 Agentic Navigation System 框架，這是一個把讀懂指令→任務拆解→執行→感知→記憶→決策與糾錯串成閉環的代理式系統。高德用全球首創的代理系統跨越了從論文到產品之間那道最難的墻。
高德憑什么做成這件事？
具身智能這條賽道進入者不少，為什么是高德先跑通了？
算法是一方面，但也不全是，因為算法是可以追趕的， SOTA 只是實時的數據表征。高德真正的護城河在于兩點：多年的空間智能探索、大規模高質量數據與工程化落地能力。
高德做地圖和位置服務超過 20 年。這 20 年積累的，不只是道路網絡數據，而是大規模真實世界的 3D 場景理解能力：建筑物的空間結構、室內室外的語義信息、人流動線的模式…… 這些東西，恰好是具身導航模型最需要、也最難靠短期采集補上的訓練數據。
把地圖數據資產脫敏轉化為具身智能的訓練基礎，這個轉化本身就是一種核心能力。高保真 3D 場景、專家導航示例，模型建立并非資本驅動，它需要多年的數據積累、場景建模工程能力，以及把這些數據組織成有效訓練集的系統工程。
操作側同樣如此。 ABot-M0 對 600 萬條開源軌跡數據進行統一清洗與標準化，看起來是數據整合問題，實則需要對操作任務的結構、動作表示的差異、不同機器人形態之間的映射關系有深入理解。異構數據的統一，本質上是對任務抽象能力的體現，而不是簡單的數據拼接。
如果說數據資產構成了訓練基礎，那么工程化能力則決定了模型能否真正落地。
ABot-N0 已實現在真實四足機器人平臺的部署，并在邊緣設備上實現高效推理與閉環控制。這意味著模型不僅能在 GPU 集群中跑通，還能在算力受限、功耗受限、延遲敏感的邊緣環境中穩定運行。
這一步其實非常關鍵。很多具身團隊擅長研究范式創新，卻未必擅長把系統真正放進真實世界。高德的基因恰恰偏向工程，億級用戶規模的地圖服務，要求系統長期穩定運行。把這種工程經驗遷移到具身系統中，使得可部署、可持續運行成為設計目標，而不是附加項，而這也恰好解決了具身智能進入開放物理世界的核心命題。
因此，高德的差異化并不在于某一次算法領先，而在于數據與工程能力體系的集中體現。當空間資產、數據治理能力與真實部署經驗疊加在一起，具身底座才真正具備長期競爭力。
結語
ABot 系列的發布，或許將在 1-2 年內帶來直接改變：統一數據格式和預訓練權重，讓中小團隊無需從零積累百萬級軌跡。過去需要 6 個月、數百萬元成本的數據采集與訓練，現在可能縮短到數周、數十萬元的微調成本。
開發范式也將從「重寫整套感知 - 規劃 - 控制系統」轉向「基于底座模型做場景化 fine-tune」。或許一個五人小團隊，可能在幾周內完成過去需要數十人、數月交付的定制項目。
更遠的未來，機器人能力可能變成可組合的 API：就像今天開發者調用 GPT 生成文案、DALL-E 生成圖片、Sora 生成視頻，未來可能直接調用 ABot 完成物理世界任務：「幫我整理書架」「去倉庫盤點庫存」「在工廠巡檢設備異?！?。
當然，硬件成本、安全驗證、數據閉環等問題仍然存在，具身智能距離真正普及還有不短的路。但當統一表示開始降低訓練門檻，當模型可以在真實環境中持續運行，這個行業至少邁出了從定制工程走向通用底座的一步。
它未必是終局，但方向已經變得更清晰了。
下附此次高德發布的兩款具身基座模型的項目主頁及技術報告：
ABot-M0 項目主頁｜https://amap-cvlab.github.io/ABot-Manipulation/ ABot-M0 技術報告｜https://github.com/amap-cvlab/ABot-Manipulation/blob/main/assets/ABot-M0_Technical_Report.pdf ABot-N0 項目主頁：https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/ ABot-N0 技術報告：https://github.com/amap-cvlab/ABot-Navigation/blob/ABot-N0/ABot-N0_Technical_Report.pdf

推薦閱讀

上一篇：2025年“聽勸”后，新榮耀終于看起來足夠“新”了

下一篇：2025年的大勝，對AMD來說既是機遇也是挑戰