交大系殺出具身賽道重圍！1萬臺訂單，世界模型重塑萬億城市基建

2026-03-29 ai 機器人

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

允中發自凹非寺
量子位 | 公眾號 QbitAI
Scaling Law在物理世界失靈了嗎？
大模型重塑數字世界之后，物理AI成為了下一個征途。
但在自動駕駛之后，通用機器人正面臨著一道前所未有的工程天塹——
真實物理世界開放、連續且強因果約束，任務高度多樣、交互對象不可窮舉、失敗成本極高。
行業正達成新共識：
Scaling Law依然有效，但僅靠堆砌真實數據已觸及天花板。
要實現規?；M化，通用機器人必須在行動前具備“理解、推演并評估物理世界”的能力。
于是，世界模型（World Model），以及進一步的環境與動作統一建模架構——World-Action Model（WAM），正在成為物理AI的關鍵基礎設施。
作為具身智能領域的代表性玩家，由上海交大系技術“雙子星”——何弢博士與廖文龍博士聯手掌舵的酷哇科技（Coowa），近期發布了其核心技術底座——COOWA WAM 2.0世界模型。
這次升級標志著機器人開始從“動作復現”轉向“規劃推理” ，完成了從模仿者向思考者的躍遷。

模仿學習的盡頭：為什么“閉環數據”不夠用了？過去十年，深度學習的成功主要建立在“大規模真實數據驅動的自監督學習”之上， GPT系列正是這一范式的典型代表。
然而，如果將這一邏輯遷移到機器人領域，卻可以發現一個尷尬的分布外（OOD）陷阱。
語言系統的詞匯與語法規則雖然龐大，但終究是有限的，新樣本大多落在既有的語義流形之內。而物理世界截然不同——狀態與交互的組合近乎無限，且動作的后果無法僅由歷史共現模式推斷。
在這樣的系統中，僅依賴真實數據的模仿學習存在一個致命的數學缺陷：累積誤差（Cumulative Error）。
在長序列的多步決策中，微小的狀態預測偏差或動作執行誤差，會隨著時間和環境反饋被不斷放大。
這導致系統迅速偏離訓練數據的分布，進入模型從未見過的“未知區域” 。一旦進入該區域，機器人行為失穩甚至災難性失效便不可避免。
更由于物理世界的不可逆性，我們無法像訓練AlphaGo那樣在真實世界中進行無限次的試錯。高質量交互數據采集成本高、長尾場景（Corner Case）復現難，構成了物理AI的“數據長城” 。
因此，通用機器人必須引入反事實推演（Counterfactual Reasoning）能力——即機器人在執行動作之前，在腦海中預演“如果我這樣做，世界會變成什么樣” 。

這正是World-Action Model (WAM) 存在的意義。
范式重構：從“感知-執行”到“推演-決策”傳統的機器人系統遵循“感知（Perception）→ 策略（Policy）→ 控制（Control）”的線性鏈路。
這種設計的局限在于，系統無法內在建模動作的潛在后果，本質上是一種高維的“條件反射” 。

酷哇科技的COOWA WAM 2.0帶來的是一種系統級的范式升級，它是一個可學習的神經模擬器，通過統一建模以下三大元素，實現了可推演的決策能力：
世界狀態：可觀測的環境與對象表征；動作候?。夯魅俗隕磧胨宓目贍芐形? 狀態-動作-結果：統計關聯與因果演化。在這一架構下，機器人不再盲目行動，而是基于對世界的理解進行“思想實驗” 。

硬核拆解：COOWA WAM 2.0的四大技術支柱為了實現上述能力， COOWA WAM 2.0在工程上構建了四大核心模塊，巧妙地融合了“快思考（直覺）”與“慢思考（推理）” 。
1、基于語義的表征學習 (Semantic Representation Learning)
——機器人的視覺皮層
低層的像素信息難以直接用于決策，機器人需要理解畫面背后的語義。
該模塊利用圖像-文本對齊（Masking + 對比學習）技術，提取高層語義特征。

它將紛繁復雜的視覺輸入，映射為可理解、可計算的環境表征（Latent Representation）。
這不僅解決了感知信息過載的問題，更為后續的直覺系統和推理系統提供了統一、可遷移的感知基礎，實現了跨任務與跨場景（如從環衛車到人形機器人）的泛化能力。

2、基于視頻生成的未來預測 (Video-based World Dynamics Prediction)
——物理世界的推演沙盒
這是世界模型的核心。
該模塊通過對環境狀態序列建模，學習物理規律、對象交互和場景演化模式，有點類似于Sora的視頻生成能力，但它更專注于動力學的一致性。
通過自監督預測訓練，它能生成未來可能的動態場景，為機器人提供一個零成本的虛擬試驗場。
在這里，機器人可以前瞻性地評估動作后果，從而規避現實中的風險，極大降低了累積誤差的影響。
3、直覺行動系統 (Intuition-driven Action Generator)
——系統1：快速響應的第一感
在開放環境中，機器人不能對每一個動作都進行耗時漫長的邏輯搜索。
直覺行動系統扮演了“系統1”的角色。

它基于環境的高維表征和模仿學習習得的經驗規律，不依賴逐步搜索，而是直接利用直覺模型預測潛在動作結果，快速并行生成多組動作候選。
這使得機器人即便在面對突發狀況時，也能基于經驗生成合理的應對方案，保證了響應的實時性。

4、VLM宏觀約束 (Vision-Language Model Constraints)
——系統2：因果邏輯的守門員
直覺系統雖然快，但容易產生幻覺或違反長期目標。
此時，需要VLM（視覺語言大模型）介入，扮演“系統2”的角色。
在COOWA WAM 2.0中， VLM不直接生成底層的連續控制信號（因為不夠精準），而是承擔宏觀規劃與因果約束。
宏觀因果約束：將任務目標轉化為高層約束，防止低層動作產生危險。動作篩選與優化：在直覺系統生成的候選動作庫中， VLM根據常識和物理邏輯進行“剪枝”和“優選” 。這種“直覺生成+VLM約束”的互補架構，既保證了機器人動作的快速反應，又確保了決策符合人類意圖與物理常識。
從WAM到Robo City ，構建物理世界的“新基建”COOWA WAM 2.0的出現，標志著通用機器人正在從“單一技能模型”走向“通用認知底座” 。
但在酷哇科技他們看來，技術架構的完成度只是第一步，商業系統的魯棒性才是檢驗物理AI是否成熟的終極標準。
得益于COOWA WAM 2.0帶來的極高泛化能力與低邊際部署成本，酷哇打破了具身智能領域長期存在的定制化陷阱和難以規?；е?，預計2026年全系機器人交付量將突破10000臺，并在全球50多個城市及地區實現常態化運營。
更具里程碑意義的是，酷哇近期宣布其已率先實現年度EBITDA（息稅折舊攤銷前利潤）回正，證明了其通用機器人已從依靠資本輸血的科研原型，蛻變為具備自我造血能力和商業確定性的工業級產品。

在這一商業基石之上，酷哇正在構建一個被稱為“Robo City”的未來城市圖景。
在酷哇的構想中，未來城市中的數萬臺異構機器人將由一個個孤立的個體，躍升為通過WAM共享同一個“世界認知”的智能集群，具體包括以下組成部分：
L4級無人小巴（Coobus）：在城市微循環中高效接駁，打通出行的“最后一公里”；城市管家機器人：穿梭于CBD與公園，化身為流動的智能交互終端，基于人流熱力圖主動尋找需求，實現“貨找人”的動態商業閉環；泛具身服務機器人：在無人商超與園區內部，自主完成貨架盤點、補貨，以及跨樓層的物資垂直流轉。它們共同構成了一套覆蓋全城的物理智能體網絡（Physical Agent Network），像水電網一樣，成為維持現代城市高效運轉的新型基礎設施。

萬臺通用機器人重構現實， WAM在沙盒中推演未來，物理AI才真正迎來了屬于它的高光時刻。
酷哇科技，不僅是這套新基建的定義者，更是跑在最前面的破局人。
【交大系殺出具身賽道重圍！1萬臺訂單，世界模型重塑萬億城市基建】真是酷哇～

推薦閱讀

上一篇：同樣內置風扇，直吹SoC和主動散熱風道有何不同？

下一篇：第二代AI預訓練范式：預測下個物理狀態