交大系殺出具身賽道重圍!1萬臺訂單,世界模型重塑萬億城市基建

交大系殺出具身賽道重圍!1萬臺訂單,世界模型重塑萬億城市基建

文章圖片

交大系殺出具身賽道重圍!1萬臺訂單,世界模型重塑萬億城市基建

文章圖片

交大系殺出具身賽道重圍!1萬臺訂單,世界模型重塑萬億城市基建

文章圖片

交大系殺出具身賽道重圍!1萬臺訂單,世界模型重塑萬億城市基建

文章圖片

交大系殺出具身賽道重圍!1萬臺訂單,世界模型重塑萬億城市基建

文章圖片


允中 發自 凹非寺
量子位 | 公眾號 QbitAI
Scaling Law在物理世界失靈了嗎?
大模型重塑數字世界之后 , 物理AI成為了下一個征途 。
但在自動駕駛之后 , 通用機器人正面臨著一道前所未有的工程天塹——
真實物理世界開放、連續且強因果約束 , 任務高度多樣、交互對象不可窮舉、失敗成本極高 。
行業正達成新共識:
Scaling Law依然有效 , 但僅靠堆砌真實數據已觸及天花板 。
要實現規?;M化 , 通用機器人必須在行動前具備“理解、推演并評估物理世界”的能力 。
于是 , 世界模型(World Model) , 以及進一步的環境與動作統一建模架構——World-Action Model(WAM) , 正在成為物理AI的關鍵基礎設施 。
作為具身智能領域的代表性玩家 , 由上海交大系技術“雙子星”——何弢博士與廖文龍博士聯手掌舵的酷哇科技(Coowa) , 近期發布了其核心技術底座——COOWA WAM 2.0世界模型 。
這次升級標志著機器人開始從“動作復現”轉向“規劃推理” , 完成了從模仿者向思考者的躍遷 。

模仿學習的盡頭:為什么“閉環數據”不夠用了?過去十年 , 深度學習的成功主要建立在“大規模真實數據驅動的自監督學習”之上 , GPT系列正是這一范式的典型代表 。
然而 , 如果將這一邏輯遷移到機器人領域 , 卻可以發現一個尷尬的分布外(OOD)陷阱 。
語言系統的詞匯與語法規則雖然龐大 , 但終究是有限的 , 新樣本大多落在既有的語義流形之內 。 而物理世界截然不同——狀態與交互的組合近乎無限 , 且動作的后果無法僅由歷史共現模式推斷 。
在這樣的系統中 , 僅依賴真實數據的模仿學習存在一個致命的數學缺陷:累積誤差(Cumulative Error) 。
在長序列的多步決策中 , 微小的狀態預測偏差或動作執行誤差 , 會隨著時間和環境反饋被不斷放大 。
這導致系統迅速偏離訓練數據的分布 , 進入模型從未見過的“未知區域” 。 一旦進入該區域 , 機器人行為失穩甚至災難性失效便不可避免 。
更由于物理世界的不可逆性 , 我們無法像訓練AlphaGo那樣在真實世界中進行無限次的試錯 。 高質量交互數據采集成本高、長尾場景(Corner Case)復現難 , 構成了物理AI的“數據長城” 。
因此 , 通用機器人必須引入反事實推演(Counterfactual Reasoning)能力——即機器人在執行動作之前 , 在腦海中預演“如果我這樣做 , 世界會變成什么樣” 。

這正是World-Action Model (WAM) 存在的意義 。
范式重構:從“感知-執行”到“推演-決策”傳統的機器人系統遵循“感知(Perception)→ 策略(Policy)→ 控制(Control)”的線性鏈路 。
這種設計的局限在于 , 系統無法內在建模動作的潛在后果 , 本質上是一種高維的“條件反射” 。

酷哇科技的COOWA WAM 2.0帶來的是一種系統級的范式升級 , 它是一個可學習的神經模擬器 , 通過統一建模以下三大元素 , 實現了可推演的決策能力:
世界狀態:可觀測的環境與對象表征; 動作候?。 夯魅俗隕磧胨宓目贍芐形? 狀態-動作-結果:統計關聯與因果演化 。在這一架構下 , 機器人不再盲目行動 , 而是基于對世界的理解進行“思想實驗” 。

硬核拆解:COOWA WAM 2.0的四大技術支柱為了實現上述能力 , COOWA WAM 2.0在工程上構建了四大核心模塊 , 巧妙地融合了“快思考(直覺)”與“慢思考(推理)” 。
1、基于語義的表征學習 (Semantic Representation Learning)
——機器人的視覺皮層
低層的像素信息難以直接用于決策 , 機器人需要理解畫面背后的語義 。
該模塊利用圖像-文本對齊(Masking + 對比學習)技術 , 提取高層語義特征 。

它將紛繁復雜的視覺輸入 , 映射為可理解、可計算的環境表征(Latent Representation) 。
這不僅解決了感知信息過載的問題 , 更為后續的直覺系統和推理系統提供了統一、可遷移的感知基礎 , 實現了跨任務與跨場景(如從環衛車到人形機器人)的泛化能力 。

2、基于視頻生成的未來預測 (Video-based World Dynamics Prediction)
——物理世界的推演沙盒
這是世界模型的核心 。
該模塊通過對環境狀態序列建模 , 學習物理規律、對象交互和場景演化模式 , 有點類似于Sora的視頻生成能力 , 但它更專注于動力學的一致性 。
通過自監督預測訓練 , 它能生成未來可能的動態場景 , 為機器人提供一個零成本的虛擬試驗場 。
在這里 , 機器人可以前瞻性地評估動作后果 , 從而規避現實中的風險 , 極大降低了累積誤差的影響 。
3、直覺行動系統 (Intuition-driven Action Generator)
——系統1:快速響應的第一感
在開放環境中 , 機器人不能對每一個動作都進行耗時漫長的邏輯搜索 。
直覺行動系統扮演了“系統1”的角色 。

它基于環境的高維表征和模仿學習習得的經驗規律 , 不依賴逐步搜索 , 而是直接利用直覺模型預測潛在動作結果 , 快速并行生成多組動作候選 。
這使得機器人即便在面對突發狀況時 , 也能基于經驗生成合理的應對方案 , 保證了響應的實時性 。

4、VLM宏觀約束 (Vision-Language Model Constraints)
——系統2:因果邏輯的守門員
直覺系統雖然快 , 但容易產生幻覺或違反長期目標 。
此時 , 需要VLM(視覺語言大模型)介入 , 扮演“系統2”的角色 。
在COOWA WAM 2.0中 , VLM不直接生成底層的連續控制信號(因為不夠精準) , 而是承擔宏觀規劃與因果約束 。
宏觀因果約束:將任務目標轉化為高層約束 , 防止低層動作產生危險 。 動作篩選與優化:在直覺系統生成的候選動作庫中 , VLM根據常識和物理邏輯進行“剪枝”和“優選” 。這種“直覺生成+VLM約束”的互補架構 , 既保證了機器人動作的快速反應 , 又確保了決策符合人類意圖與物理常識 。
從WAM到Robo City , 構建物理世界的“新基建”COOWA WAM 2.0的出現 , 標志著通用機器人正在從“單一技能模型”走向“通用認知底座” 。
但在酷哇科技他們看來 , 技術架構的完成度只是第一步 , 商業系統的魯棒性才是檢驗物理AI是否成熟的終極標準 。
得益于COOWA WAM 2.0帶來的極高泛化能力與低邊際部署成本 , 酷哇打破了具身智能領域長期存在的定制化陷阱和難以規?;е?, 預計2026年全系機器人交付量將突破10000臺 , 并在全球50多個城市及地區實現常態化運營 。
更具里程碑意義的是 , 酷哇近期宣布其已率先實現年度EBITDA(息稅折舊攤銷前利潤)回正 , 證明了其通用機器人已從依靠資本輸血的科研原型 , 蛻變為具備自我造血能力和商業確定性的工業級產品 。

在這一商業基石之上 , 酷哇正在構建一個被稱為“Robo City”的未來城市圖景 。
在酷哇的構想中 , 未來城市中的數萬臺異構機器人將由一個個孤立的個體 , 躍升為通過WAM共享同一個“世界認知”的智能集群 , 具體包括以下組成部分:
L4級無人小巴(Coobus):在城市微循環中高效接駁 , 打通出行的“最后一公里”; 城市管家機器人:穿梭于CBD與公園 , 化身為流動的智能交互終端 , 基于人流熱力圖主動尋找需求 , 實現“貨找人”的動態商業閉環; 泛具身服務機器人:在無人商超與園區內部 , 自主完成貨架盤點、補貨 , 以及跨樓層的物資垂直流轉 。它們共同構成了一套覆蓋全城的物理智能體網絡(Physical Agent Network) , 像水電網一樣 , 成為維持現代城市高效運轉的新型基礎設施 。

萬臺通用機器人重構現實 , WAM在沙盒中推演未來 , 物理AI才真正迎來了屬于它的高光時刻 。
酷哇科技 , 不僅是這套新基建的定義者 , 更是跑在最前面的破局人 。
【交大系殺出具身賽道重圍!1萬臺訂單,世界模型重塑萬億城市基建】真是酷哇~

    推薦閱讀