在具身智能的岔路口,這場論壇把數據、模型、Infra聊透了

在具身智能的岔路口,這場論壇把數據、模型、Infra聊透了

文章圖片

在具身智能的岔路口,這場論壇把數據、模型、Infra聊透了

文章圖片

在具身智能的岔路口,這場論壇把數據、模型、Infra聊透了

文章圖片

在具身智能的岔路口,這場論壇把數據、模型、Infra聊透了

文章圖片

在具身智能的岔路口,這場論壇把數據、模型、Infra聊透了

文章圖片


機器之心原創
作者:張倩

當機器人成為各大科技展會最受矚目的焦點 , 當具身智能論壇場場爆滿、一票難求 , 我們不難發現:這個領域正在經歷前所未有的關注熱潮 。

然而 , 熱潮之下 , 仍有諸多關鍵議題懸而未決:面對數據稀缺 , 有人寄希望于合成數據的突破 , 有人堅持真機數據才是根本;在技術路線之爭中 , 有人押注端到端的整體范式 , 有人則認為分層架構更符合演進規律;至于模型形態 , 有人視 VLA 為智能的最終歸宿 , 也有人認為世界模型才是真正的未來 。

現階段出現這種分歧非常正常 , 因為整個行業的發展路徑尚未收斂 。 有些問題甚至還沒有來得及系統討論 , 比如量產之后會出現哪些新的卡點 , 誰來解決?

正是因為存在這些問題 , 業界迫切需要一個開放的對話平臺 。 在今年云棲大會的具身智能論壇上 , 我們見證了這樣一場深度交鋒:不同派系的代表坐到同一張桌子前 , 將技術分歧、商業思考和基礎設施需求一并攤開討論 , 試圖在碰撞中尋找新的共識 。

論壇過后 , 我們也和這場論壇的發起者 —— 阿里云聊了聊 。 這家云計算巨頭選擇在此時深度介入具身智能領域 , 本身就值得關注 。

聊完之后 , 我們發現 , 他們真正的入局其實是在四五年前 , 如今更是在提前為具身智能行業即將到來的數據量的指數級增長以及算力需求、模型規模的爆發做準備 。 這種給行業未來 3 到 5 年打「提前量」的布局既體現了阿里云對技術周期的敏銳判斷 , 也暗示著云廠商在具身智能時代所扮演的角色 —— 不只是提供算力 , 更是在為具身智能行業提前搭建起未來幾年最關鍵的基礎設施 。 他們相信 , 在各方的共同努力下 , 具身智能的「FSD V12 時刻」很快就會到來 , 而他們已經為此做好了準備 。

真機派 vs. 合成派
哪個更有前景?

具身智能的數據饑荒已成為行業共識 。 為了解決這個問題 , 行業逐漸劃分出兩個派系:真機派和合成派 。 真機派堅持以遙操或者互聯網的形式獲取數據 , 基于 VLA 做模仿學習;仿真派則相信合成數據可行性 , 在仿真環境中合成數據 , 用作模型訓練 , 并大量使用強化學習 。 雙方都有充足的理由堅持自己的路線 。

銀河通用是仿真合成派的代表 。 在現場 , 該公司聯合創始人兼大模型負責人張直政從成本和可擴展性的角度闡述了他們選擇該路線的理由 。



張直政指出 , 今天的具身智能大模型要想實現通用的、跨任務的泛化能力 , 可能需要上萬億條數據 , 全部真機采集既難以實現也不可持續 。 特斯拉的 Optimus 就是一個例證 , 他們曾讓一個 40 多人的團隊耗時一個月采集了數十萬條遙操數據 , 用來訓練機器人完成電池取放任務 , 但泛化性依然很差 。 在相關負責人離職后 , Optimus 開始嘗試通過人類視頻讓機器人學習任務 。

因此 , 銀河通用選擇的路線是:先通過大規模仿真合成數據進行預訓練 , 構建通用基座大模型 , 再利用少量高精度的真實數據進行后訓練 。 通過這種方式 , 他們實現了良好的泛化性能 , 并且把真實數據后訓練的樣本效率提高到了 Optimus 的一千倍 , 大大降低了落地的邊際成本 。

「仿真極為重要 , 沒有仿真 , 我認為我們幾十年內都無法制造出能在現實世界中發揮作用的機器人」 。 NVIDIA 機器人與邊緣 AI 副總裁 Deepu Talla 在現場說道 。 此外 , 他還分享了 Isaac Sim、Isaac Lab 等工具 , 有了這些工具 , 機器人的仿真數據生產和模型訓練顯著加速 。



但值得注意的是 , 并不是在所有的情況下 , 仿真數據都更容易獲取 。 清華大學助理教授、星海圖首席科學家趙行就指出 , 「有些仿真數據的 scaling law 來自于你擁有的博士生數量 , 像流體、柔性物體的仿真只有圖形學博士才能做」 。 在這種情況下 , 在真實世界做一個物理實驗反而更便宜(比如杯子打翻 , 水灑在一塊布上) , 而且得到的數據質量更高 , 多樣性也更好 。 千尋智能聯席首席科學家解浚源也指出 , 仿真數據其實是「偽數據驅動」 , 因為仿真器需要針對每個物體和場景定制開發 , 這本質上是一種「研發人力驅動」的方式 。 此外 , 仿真數據的數據效率也是一大問題 , 自變量機器人創始人、CEO 王潛給出了一個令人驚訝的數字:仿真數據和真實數據的效率可能會差 5-6 個數量級 , 這在實際訓練中會大大削弱仿真數據的成本優勢 。

仿真未必便宜 , 真機也未必貴到不可承受 。 作為「真機派」的代表 , 解浚源還對「真機數據昂貴稀少」的共識提出了挑戰 。 他認為 , 真機數據真正的瓶頸在于缺乏投入 , 而非數據本身成本過高 。 「實際上真機數據并沒有想象中那么貴 , 在國內供應鏈的支持下 , 把單個機器人成本打到 10 萬以下是很容易的 。 」解浚源將此與大模型廠商的投入進行對比 , 指出當前一塊高端訓練顯卡的成本遠高于一個國產機器人的成本 。 既然大模型廠商能以萬卡甚至幾十萬卡的規模投入算力 , 那么將采集數據的機器人規模擴展到上千臺、上萬臺 , 絕非不可想象的成本 。



此外 , 在采集方式上 , 遙操作并不是唯一的選擇 。 千尋智能自研的可穿戴機械臂可以把采集成本降到遙操作的 1/20 , 同時保持有效采集精確度不變 。

解浚源相信 , 唯有高質量的真實數據才能訓練出世界領先的模型 , 所以他們致力于構建一個基于真實數據的全鏈路數據生態 , 從而打造一個數據飛輪 , 讓機器人借助真實數據實現能力的不斷升級 。

端到端 vs. 分層 , VLA vs. 世界模型
哪個是終局?

無論是合成數據還是真機數據 , 最終都是要為模型的訓練去提供服務 。 隨著大模型與機器人領域融合的加深 , 一些問題開始浮出水面:具身智能領域需要什么樣的大模型?端到端和分層架構哪個更有前景?VLA 是終局嗎?世界模型又將帶來哪些價值?圍繞這些問題 , 幾位具身智能行業領袖、資深研究者展開了討論 。



針對第一個問題 , 王潛表示 , 具身智能大模型不是虛擬世界大模型在現實世界的簡單應用 , 而是獨立的基礎模型 。 因為首先 , 語言和視覺無法精確描述物理動作;其次 , 物理接觸過程的復雜性遠超虛擬世界模型的建模能力 。

趙行同意這個說法 , 并進一步指出 , 具身基礎模型是一個平行于語言模型的存在 。 猴子、猩猩等動物沒有豐富的語言 , 但它們的具身智能能力卻非常強大 , 這種能力很有可能來自視覺和動作這兩個模態的交互學習 。 這說明視覺 - 動作模態本身就蘊含著強大的智能潛力 , 可以平行于語言模態發展出自己的智能 。

但在構建具身智能基礎模型的方式上 , 兩人出現了分歧 —— 趙行青睞分層架構 , 王潛則堅信端到端 。

最初選擇分層架構 , 趙行更多考慮的是現實部署約束 , 因為在端側實時跑大模型受限于端側芯片的迭代速度 。 通過大小腦分層、分別部署在邊緣側和端側的設計 , 機器人更容易落地 。 此外 , 他認為分層架構更符合生物進化規律 , 畢竟人腦不同分區各司其職同樣工作得很好 。 針對不同層之間能力無法互通、梯度無法回傳的質疑 , 趙行表示這不是本質問題 , 可通過強化學習等技術解決 。

但王潛認為分層架構存在致命缺陷:前層的微小錯誤會在后續環節快速放大 , 而且更多的人為干預往往會降低模型效果 。 更重要的是 , 高層模型不理解物理約束 , 常常分配不可能完成的任務;而底層模型缺乏語義理解 , 學會抓橘子卻不會抓蘋果 。 為解決層間理解鴻溝 , 最終還是要針對各層缺陷注入不同知識 , 結果就是各層越來越像 , 不如直接采用統一模型 。 對于部署壓力 , 王潛回應說 , 雖然端到端在訓練階段只訓一個模型 , 但推理階段可以拆開或壓縮 , 然后分布式部署 。

不過 , 從某種意義上來說 , 端到端和分層架構并不一定是完全對立的 。 北京大學計算機學院研究員仉尚航指出 , 分層的關鍵在于如何定義「層」 。 如果分層是指必須拆分成兩個獨立模型 , 那確實與端到端相沖突;但如果是在一個統一模型內實現功能分區 —— 比如一部分側重推理決策 , 另一部分專注動作生成 , 那就既保持了端到端的完整性 , 又實現了類似大小腦的分工 , 兩條路線就可以收斂到一起 。

針對當前聲量比較高的 VLA 和世界模型 , 各位嘉賓也發表了自己的觀點 。 北京人形機器人創新中心 CTO 唐劍指出了世界模型的幾個重要作用:一是輔助機器人大腦 VLM 進行自主學習探索 , 像「做夢者」一樣模擬各種任務場景;二是自動生成可執行的動作序列 , 作為真機數據的高效補充;三是為 VLA 等模型提供底座支撐 。 他認為世界模型與 VLA 并非沖突關系 , 而是可以相互配合的技術組合 。

趙行則認為 , VLA 是當下更有潛力的技術路線 , 因為世界模型過于依賴 first-principle 假設 , 要求必須預測出未來圖像才能做規劃 , 但人類學習主要靠「熟能生巧」 。 另外 , 從數據效率看 , 100 條數據用來訓練端到端 VLA 就能產生效果 , 但訓練世界模型至少需要萬級甚至億級數據量 。 所以在他看來 , 世界模型是一個非常終局的路線 , 只有在數據不受限制的時候才更有價值 。

具身智能 Scaling Law 已初見端倪
誰來為行業托底?

嘉賓們的分享足夠尖銳 , 也足夠真誠:真機派與合成派的路徑之爭、端到端與分層架構的優劣、VLA 與世界模型的對比…… 這些關鍵問題被一并擺上桌面 , 讓行業當下的卡點一目了然 。

同時 , 還有一些關鍵信息值得關注 , 比如王潛提到 , 他們已經在內部數據中觀察到了具身智能的 scaling law , ICLR 2025 的一篇論文(「DATA SCALING LAW IN IMITATION LEARNING FOR ROBOTIC MANIPULATION」)也提到了這一點 。 這意味著 , 在具身智能領域繼續擴大模型和數據規模也極有可能是有效的 。

此外 , 我們也看到 , 現場有多位嘉賓分享了具身智能的落地情況 , 比如上海傅利葉智能科技股份有限公司創始人兼首席執行官顧捷分享了他們在人機交互、康復及陪伴場景的探索 , 中科云谷科技有限公司副總經理楊輝介紹了中聯重科在工業制造場景下的機器人落地思考與實踐 , 加速進化副總裁趙維晨則講述了人形機器人普及路徑及教育、競賽等落地思路 。 從中可以看出 , 整個具身智能行業的落地速度正在加快 , 越來越多的公司開始走向量產 。







但當議題從「怎么造機器人」切換到「怎么把機器人量產」 , 討論就必須引入一個此前近乎隱形的主角 —— 云廠商 。

「我們建議 , 具身智能公司從第一天起就要做好云架構、AI Infra 的規劃 。 」阿里云智能集團公共云事業部副總裁、華北大區總經理 , 同時也是阿里云智能集團公共云事業部具身智能負責人高飛在采訪中提到 。



這背后的邏輯并不復雜 。 正如嘉賓們所言 , 大模型技術已經廣泛應用于具身智能行業 , scaling law 的顯現和機器人落地速度的加快都讓數據和算力規模變得愈發重要 。 論壇嘉賓分享的提效手段讓數據采集、合成越來越快 , 未來幾年行業數據量將穩步攀升 , 對應的清洗、存儲和訓練壓力也會隨之放大 。

但僅憑具身智能公司一己之力 , 這樣的壓力是很難頂住的 。 首先 , 數據激增帶來的需求難以預測 , 企業自建的 IT 基礎設施很難跟上業務發展 , 也會因為缺乏彈性而難以滿足訓練、仿真等并發需求 。 其次 , 大多數具身智能團隊源自科研背景 , 這讓他們在算法突破方面游刃有余 , 但工程化經驗相對有限 , 開發工具鏈和運維能力也常常不足 。

一旦公司開始量產 , 數據開始指數級增長 , 這些矛盾就會被瞬間放大 。 僅數據的遷移、處理工作就會造成巨大的 IT 開銷 , 給企業發展帶來阻力 。

阿里云非常清楚這一過程給企業帶來的痛苦 , 因為在智能駕駛行業 , 他們已經經歷過一輪類似的發展歷程 , 也幫助很多頭部車企順利渡過了難關 。 如今 , 越來越多的具身智能公司找到他們 , 希望在量產之前完成云架構的規劃 , 少走一些彎路 。

對于這些需求 , 阿里云已經在過去的四五年中沉淀了不少相關能力:

首先是處理大量數據的能力 。

阿里云智能集團公共云事業部具身智能解決方案負責人王旭文提到 , 阿里云最初誕生就定位為「以數據為中心的云計算」 , 之后深度入局的智能駕駛、AI 也都是數據密集型行業 , 如今大量具身智能數據涌來 , 他們已經有足夠強大的基礎設施和經驗來從容應對 。



具體來說 , 在最根本的數據生產環節 , 無論企業是「真機派」還是「仿真派」 , 他們都有全套的技術支持 。

真機數據生產的鏈條非常長 , 也非常復雜 , 涉及采集、標注、傳輸上云、存儲、質量校驗、清洗脫敏、數據分析等多個環節 。 對此 , 阿里云能夠提供一整套云上的大數據處理能力來支撐這個復雜流程 , 包括云上托管的數據處理引擎和湖倉一體架構 , 實現統一的元數據管理和超大規模數據的有序生產 。

對于仿真數據生產 , 阿里云同樣做了充分準備 。 他們適配了市面上主流的仿真軟件運行環境 , 并通過自身的產研能力對這些軟件進行了深度的性能優化與評估 , 幫助用戶選擇最適合的算力規格 , 顯著提升仿真計算效率并降低成本 。 此外 , 他們的多款云產品已經和第三方工具鏈深度集成 , 可以做到開箱即用 , 比如阿里云人工智能平臺 PAI 已經完成與 NVIDIA Physical AI 全棧工具鏈的整合;無影云電腦可以彈性掛載多種規格的 GPU , 并且預置了多款國內外仿真軟件 , 用開箱即用的開發機加速整個仿真過程 。

但無論如何 , 當前數據的稀缺依然是一大難題 , 所以數據的流轉和共享已經成為一種產業需求 。 傳統的線下數據拷貝方式效率極低 —— 很多公司需要派人拿著硬盤到對方公司去拷貝 , 這種以周為單位的數據傳輸方式顯然無法適應行業發展需要 。 阿里云通過 OSS 跨地域、跨賬號的數據遷移服務 , 能夠將這個過程縮短到小時級別 。 同時 , 他們也在聯合生態伙伴 , 推動云上數據存儲和安全數據分享的行業最佳實踐 。

其次是獨一無二的模型原廠優勢 。
【在具身智能的岔路口,這場論壇把數據、模型、Infra聊透了】
通義千問系列模型在 AI 領域的地位有目共睹 —— 其衍生模型數量已超過 17 萬個 , 穩居全球開源模型的頭部陣營 。 但更值得關注的是 , 這種影響力正在向具身智能領域延伸 。

「最近一段時間我跑了大概 30 家具身智能公司 , 跟他們的 CEO 深度溝通后了解到 , 他們大部分都在用 Qwen-VL 模型去做后訓練 。 」高飛在采訪中提到 。

這種不約而同的選擇背后有著充分的技術理由 。 Qwen-VL 在空間感知、動態視覺理解、2D/3D Grounding、路徑規劃等方面的能力 , 恰好契合了具身智能對「大腦」的核心需求 。 更重要的是 , 堅持開源策略讓通義千問形成了一個全球性的開發者生態 , 大量國內外開發者在基于這個模型進行二次開發和優化 。 而且 , 作為模型原廠 , 阿里云還可以提供模型服務的深度支持 , 比如定向開源特定版本 checkpoint , 提供專業的模型訓練工程化支持等 。 這種從模型底層到應用層的全鏈路支撐能力 , 讓阿里云在具身智能賽道擁有了一個幾乎不可復制的競爭優勢 。

在論壇現場 , 通義千問實驗室算法科學家白帥還分享了他們最新的 Qwen3-VL 模型 , 這個模型針對細粒度視覺理解、視頻時序理解、3D 感知與規劃以及帶圖推理和視覺交互能力進行了優化 , 為具身智能落地提供了更強的基礎模型支撐 。



當然 , 通義以外的模型 , 阿里云也提供高性價比的、穩定的調用服務 。 阿里云百煉不僅集成了自研的全系列模型 , 還匯聚了國內主流模型和國外開源模型 。 在這些模型背后 , 阿里云提供統一的基礎設施保障 , 確保服務的可用性、穩定性和大規模集群支持 。 對于那些在數據安全和定制化方面有特殊需求的客戶 , 阿里云還支持在 VPC 環境中獨立部署模型 。

模型之外 , 工程化能力也很重要 。

「工程這件事需要時間和經驗的積累 , 做過和沒做過的就是不一樣 。 這一過程沒有捷徑 。 」王旭文在采訪中強調 。

他還觀察到 , 由于具身智能尚處于規模化前期 , 一些工程方面的痛點還沒有充分暴露 , 所以很多具身智能公司還沒有在工程方面做好準備 , 這與成熟的 AI 行業形成了鮮明對比 。

好在 , 阿里云是準備好了的 , 因為在過去幾年服務頭部大模型公司和汽車新勢力的過程中 , 他們通過「一步一步踩坑」的方式積累了大量的基礎設施和實戰經驗 , 并將這些東西沉淀成了可標準化交付的產品和服務能力 , 包括完整的計算、存儲、網絡基礎設施、數百 P 級數據處理能力等 。

這些東西之所以能夠復用 , 是因為具身智能和智能駕駛在工程架構方面有著高度的相似性 。 首先是基礎設施層面 , 無論是集群組網 , 還是資源管理調度、性能優化 , 兩個領域所需的底層能力幾乎一致 。 操作系統、運行環境、開發框架等技術棧也沒有本質區別 。 其次是工具鏈層面 , 兩個行業的研發 Pipeline 高度重合 , 對數據 Pipeline 構建的基礎能力需求也基本相同 。 更有意思的是 , 許多具身智能從業者本身就來自智能駕駛背景 , 他們使用的模型架構很多是在智能駕駛模型基礎上改進而來的 。 這種人員和技術的傳承 , 讓阿里云此前在智能駕駛領域積累的工程經驗能夠幾乎無縫地移植到具身智能場景中 。

「智能駕駛行業規模已經如此之大、體系如此成熟 , 它所積累的經驗完全可以先復用 , 然后再看有什么差異 。 它所踩過的坑 , 具身智能企業沒必要從頭再踩一遍」 , 王旭文以「過來人」的口吻說道 , 這也是他們反復強調具身智能公司一定要在業務爆發之前就做好基礎設施規劃的重要原因 。

目前 , 阿里云已經服務了一些已經或正在走向量產階段的具身智能企業 。 在這一過程中 , 他們發現自己可以做的事情其實非常多 , 比如提供全鏈路可觀測服務 , 提供回傳數據的實時采集和實時分析以輔助故障診斷與定責 , 通過 Qwen-Omni、Qwen-ASR 能力增強機器人的對話和娛樂互動性 , 通過無影云電腦提供工作站環境從而支持仿真和數據采集工作等 。

看來 , 在量產機器人這條路上 , 阿里云正在幫整個行業掃清障礙 。

從非共識走向共識
阿里云準備好了

阿里云發起的這個具身智能論壇持續了 4 個小時 , 現場座無虛席 。

可以看到 , 整個具身智能行業還有很多非共識 , 技術路線還尚未收斂 。 高飛說 , 這其實很像四五年前的智能駕駛 。 但 FSD v12 出來之后 , 大家看到了「端到端 + 數據驅動閉環」在真實世界的可行性 , 于是技術路線迅速收斂 , 整個行業也迎來數據的爆炸式增長 。 他相信 , 具身智能也會經歷這個過程 。

這一過程中 , 有一些顯而易見的趨勢 , 比如云邊端協同 。 端側受物理空間和功耗限制 , 無法承載大算力需求;而長期任務規劃、復雜推理等高級能力又需要強大的計算資源支持;此外 , 多機協作、工具調用等場景也必須通過云端實現統一調度 , 這讓云廠商的重要性日益凸顯 。 阿里云積蓄的力量也將在這一階段爆發 。

不過 , 高飛也指出 , 除了基礎設施支撐 , 具身智能的落地還離不開廣大開發者群體的參與 。 為此 , 阿里云在生態建設方面做出了多方面努力 , 包括堅持通義系列大模型的開源策略 , 降低開發者使用門檻;基于阿里云數百萬開發者基礎 , 連接具身智能公司與開發者社群;提供系統化的培訓、產品試用和資源支持;在魔搭社區專門開設具身智能專區 , 匯聚相關模型和數據集等 。

在這個充滿不確定性的非共識階段 , 阿里云選擇為各種技術路線都做好準備 , 用平臺能力和生態資源為整個行業的未來發展夯實基礎 。 當具身智能的「FSD V12 時刻」真正到來時 , 這些提前布局的能力將成為推動行業躍遷的關鍵力量 。

    推薦閱讀