十二個問題解剖VLA,深度對話小米陳龍、上交穆堯

十二個問題解剖VLA,深度對話小米陳龍、上交穆堯




2025 年末 , 首批 L3 級自動駕駛車型獲得準入 , 標志著中國智能駕駛產業邁入新紀元 。 與此同時 , 具身智能機器人領域也在過去一年間經歷了“天翻地覆”的變化 , 從 2024 年初“抓蘋果都費勁” , 到如今疊衣服已成為行業的入門任務 , 穿鞋帶這樣曾被認為遙不可及的精細操作也已被攻克 。

在這場技術躍遷的背后 , 一項被稱為 VLA(Vision-Language-Action , 視覺語言動作大模型)的技術正成為連接自動駕駛與具身智能的關鍵樞紐 。 不同于傳統端到端模型從視覺直接映射到動作的“條件反射”式決策 , VLA 將語言理解與推理能力引入物理世界的決策鏈路 , 賦予機器“看了就懂、懂了就做”的認知能力 。

然而 , VLA 的興起也伴隨著爭議 。 在 2025 年世界機器人大會上 , 宇樹科技創始人王興興公開質疑這一技術路線 , 引發行業熱議 。 這場爭論的背后 , 是軟件與硬件、泛化性與可靠性、學術探索與商業落地之間的深層張力 。

為深入探討這一前沿技術的本質、挑戰與前景 , 我們邀請到兩位走在 VLA 研究最前沿的嘉賓:小米汽車智能駕駛 VLA 技術負責人陳龍 , 以及上海交通大學計算機學院助理教授、ScaleLab 負責人穆堯 。 他們分別從自動駕駛和具身智能機器人的視角 , 為我們拆解 VLA 的技術內核 , 剖析數據困境與安全挑戰 , 并回應來自產業界的質疑 。

以下是本次對話的完整內容 。

一、什么是 VLA ?

DeepTech:先請兩位解釋一下什么是 VLA 技術 。

陳龍:VLA 是最近幾年比較火的一個話題 。 它本質上是利用大語言模型的泛化能力 , 包括從互聯網數據預訓練得到的通識知識 , 再輔以語言模態的推理能力 , 來解決現實世界中行為決策的問題 。

現在不管是自動駕駛還是機器人 ,VLA 都非常火 。 因為自動駕駛面臨很多長尾問題 , 當你在路上開車時 , 大部分時間遇到的是見過的東西 , 但有時候會遇到沒見過的場景 , 這時候就需要思考能力 , 在這些場景下做出更好的決策 。

機器人也在利用 VLA 的能力 , 主要是因為機器人的任務比較復雜 , 有很多長程任務 。 它需要利用語言能力來理解人類給它的任務 , 包括對整體任務的拆解 , 把它分解成 sub task (子任務) 來執行 。 所以總體來說 ,VLA 是未來物理世界人工智能發展的趨勢 , 是大模型能力走向物理世界的必要網絡架構 。

穆堯:VLA 給機器人帶來了非常大的機會 。 具身智能和傳統機器人研究的一個很大不同點在于 , 具身智能更關注泛化性 , 包括對場景的泛化性、視覺和物理上的泛化性 , 也包括我們希望交互的物體的不同形狀、顏色等更細致的泛化性 。

在 VLA 技術下 , 實際上賦予了機器人幾方面的能力:第一 , 使機器人能夠用語言溝通 , 聽懂人類指令;第二 , 由于 VL (視覺語言模型) 在大規模互聯網數據上進行了很好的預訓練 , 可以有非常好的場景和視覺上的泛化性 , 逐漸邁向開放世界;第三是 A (Action, 動作) 這一塊 , 怎么把 VL 對接到 A 上 , 在機器人領域目前還處于研究探索階段 。 當然已經有一些比較好的模型出來 , 比如 π0 、 π0.6, 展現了一些精細操作的能力 。

VLA 帶給機器人的核心機會在于賦予了機器人一個柔性的能力 。 之前機器人可能要寫死一些機械定位 , 差一點都不行;現在可以根據情況隨機應變 。 當然這部分泛化性目前還沒有達到工業上真正四個九的要求 , 所以不管是學界還是工業界 , 都在逐漸發力 。

DeepTech:過去訓練機器人或者機器人的工作方式是什么?

穆堯:傳統機器人大部分面向特定場景、特定任務 , 在這個任務上達到 SOTA (當前最佳水平)。 傳統的方法基于規劃加柔順力控 , 或者基于強化學習 , 解決的核心問題都是單一場景、單一任務的 。 當具身智能要求走向多任務、開放世界、開放場景時 , VLA 就成為非常重要的實現路徑 。

DeepTech:舉個例子 , 現在的機器人更多在工業上應用 , 未來走入生活場景 , 是不是就用到了 VLA 的核心技術?因為生活中的場景和指令都是非標準化的 。

穆堯:是的 , 家庭場景最符合具身智能的要求 , 當然也是最難的 。 但工業場景的泛化性要求也很高 。 到現在能通過自動化產線完成的都已經大規模在做了 , 比如小米汽車的生產線 , 除了最后的總裝車間 , 其他車間都是 95% 以上自動化 。 剩下需要人類操作的部分 , 往往是因為單獨搭建產線非常昂貴 , 而且可能今天來的是這批零件 , 明天來的是另一批零件 , 有柔性生產制造的需求 。 這種需求本質上還是對泛化性的需求 , 所以工業場景上也有很大的應用空間 。

二、 VLA 與端到端自動駕駛的區別

DeepTech:VLA 技術在自動駕駛上 , 和現在的端到端自動駕駛有什么區別?

陳龍:自動駕駛研究了幾十年 , 是比較有歷史的方向 。 早期類似穆堯講的機器人方法 , 是模塊化的方式來實現—— 區分感知模塊、預測模塊和規控模塊 。 感知通過計算機視覺模型檢測物體 , 預測會預測每個車的運動軌跡 , 規劃則利用路徑規劃算法 , 在知道周圍物體和它們未來運動的條件下 , 規劃出自車的運動軌跡 。 這是自動駕駛的第一階段 , 通過規則算法來實現 。

端到端是最近幾年才興起的 。 我之前在 Wayve , 我們從 2018 年就開始做端到端自動駕駛 , 當時還是比較激進的方式 。 端到端本質上非常簡單 , 就是使用一個大模型 , 利用很多收集起來的自動駕駛數據 , 訓練一個端到端的模型 , 直接把傳感器輸入映射到駕駛信號上面 。

端到端解決了傳統算法的很多問題 , 因為傳統算法需要手動設置很多規則 , 比如紅燈情況下怎么樣、遇到別的車應該怎么做 。 端到端不用手動設計這些規則 , 而是通過數據驅動的方式 , 利用大量人類駕駛行為 , 讓神經網絡學習這些行為并進行擬合 。

但它也有很多缺點:首先是黑盒模型 , 你不知道它的決策是怎么做的 , 不是特別可控;第二是對長尾問題的泛化性不夠好 , 因為現實生活中有很多場景是收集數據收集不到的 , 遇到這種場景可能就會做出錯誤行為 。

VLA 本質上就是為了解決這些問題 。 首先是可解釋性 ,VLA 通過語言可以做出解釋 , 包括決策的原因 , 你可以通過這些原因了解它是怎么做決策的 , 透明度會加深 。 其次 ,VLA 可以提供比較好的推理能力 , 特別是 VLM (視覺語言模型)可能經過互聯網知識的預訓練 , 對世界的通識知識、人類的價值觀都有一定了解 , 再輔以推理能力 , 可以在長尾情況下通過推理做出更正確的決策 , 使自動駕駛更加安全、泛化性更好 。 這也是為什么 VLA 在最近幾年慢慢興起 , 成為主流方向 。

三、什么是長尾問題和泛化問題?

DeepTech:兩位反復提到長尾和泛化 。 能不能舉一些特殊的例子 , 幫助我們了解機器人或自動駕駛在某些場景下失效的情況?

穆堯:在機器人上 , 泛化的圈子會畫得比較大 。 可以細分為:首先是背景 , 就是操作臺以外的所有背景 , 涵蓋各種光照信息、復雜的 layout (布局) 分布;再往上是前景 , 就是當前機器人的操作臺和 target (目標) 物體;同時桌子上還有各種雜物——我們每個人家庭的桌子不是一塵不染的 , 有各種東西 , 所以操作臺上有任務相關和任務無關的物體 。

最細的層級是任務相關物體本身 。 比如任務是收拾桌子上的瓶子 , 瓶子的種類很多——可樂、雪碧是圓柱形的 , 東方樹葉是四棱柱的 , 形狀都不一樣 。 這就是從最粗到最細粒度的泛化 。

什么是長尾呢?長尾是一些在預收集數據中很難出現的狀況 。 比如機器人在夾東西時掉下來了 , 或者夾東西時碰到了某個東西 , 或者嘗試抓取時東西被碰倒了 。 人類一次嘗試沒成功 , 東西倒了之后我們知道怎么抓 , 但機器人可能完全沒見過這個倒下的狀態 , 很難 recover (恢復)。 還有更具有挑戰性的長尾 , 比如場景中有第三個可移動的物體——人 。 一個人直接把你本來瞄準好的物體位置變了 , 或者把立著的瓶子弄倒了 , 把茶杯弄翻了 , 這就是長尾 。

專家數據集也會包含泛化部分 , 包括場景泛化、操作臺泛化、任務無關物體泛化、任務相關物體泛化 , 這些都會有 。 但有些突發情況是專家數據集很難收集到的 , 一般要通過真機強化學習這樣的方式才能收集到 。

DeepTech:在自動駕駛方面呢?

陳龍:自動駕駛方面定義也類似 。 你的專家數據集不可能把所有場景都收集完 , 因為道路上有很多不可預知的事情 。 比如我們在新的地方開車時 , 會碰到不一樣的交通標識牌或不一樣的場景 。 人在新環境下也會遇到很多長尾問題 , 有時候也會開慢點或停下來想一想具體應該怎么開 。

DeepTech:就是說有的路口只有本地人才能走對?

陳龍:對 , 類似這種 。VLA 比較適合解決這些長尾問題 。 具體例子比如施工場景會有一些標識牌 , 每個標識牌都不統一 , 有的畫了車輛和箭頭示意你應該往哪個方向走 , 有的是文字形式 , 有的是其他方式指示你應該怎么走 。 在這種非結構化信號下 , 需要 VLA 對整個場景的理解 , 包括利用互聯網預訓練知識進行理解和推理 , 得出在這個長尾問題下應該具體做什么決策 。

VLA 還解決了比較長序列的問題 。 比如開車時拐進了一個死胡同 , 應該倒車退回去換一個路口 。 但如果沒有 VLA, 你可能開到死胡同里 , 即使知道退回來 , 也可能再開到這個死胡同里 , 因為你不知道剛才已經開到這里了 。VLA 可以在需要長時記憶的情況下 , 用語言這個比較抽象的模態來做長期路徑規劃 。

四、 VLA 不只是加了一層語言

DeepTech:傳統或現在用的是從視覺直接映射到動作 , VLA 是從視覺映射到語言再映射到動作 。 是不是只是在中間加了一層語言?還是 VLA 中間加入語言能解決一些其他核心問題?

陳龍:肯定不是只加了一層語言 。 這本質上是一個范式轉變 。VLA 利用大模型的范式來訓練自動駕駛或機器人算法 。VA(視覺動作)是直接把圖像映射到最終的 action(動作)上 , 不管是自動駕駛的端到端算法還是機器人比較經典的 ACT (動作分塊) 算法 , 本質上沒有利用模型的思考能力 。VLA 本質上轉換到了認知驅動的范式 , 通過大模型的能力 , 利用大模型的知識和推理能力來解決路徑規劃或抓取導航這些問題 。

現在自動駕駛領域對 VLA 的理解都不盡一樣 。 我個人理解 , 本質上 L 這個模態是對圖像的補充 。VA 只有圖像和傳感器信息來做一次決策 , 而 L 可以通過語言模態不斷 sample (采樣) 下一個 token 。 通過這個 sampling 的方式 ,sample token 的過程其實是信息量增加的過程 , 熵也是一個減少的過程 。

所以通過首先有圖像 , 然后不斷 sample 語言 token 帶來信息量增加的過程 , 最終做決策時是通過圖像信息輔以語言 sample 之后的信息 , 共同做出決策 。 理論上比只用圖像做決策會更好 。VLA 是利用了語言的預訓練能力和推理能力 , 進一步增強了決策過程 。

DeepTech:我看到過一些自動駕駛 demo, 會把思考邏輯打在車機屏幕上 。 在我們看來 , 它相當于是一個相對滯后的決策邏輯 。 在語言生成推理邏輯時已經拐過去了 , 推理邏輯才到屏幕上 。 這個過程能夠被打斷嗎?或者執行過程中能夠溝通嗎?

陳龍:這是個很好的問題 。 現在 VLA 的框架還沒有發展到特別成熟、特別擬人的階段 。 現在市面上有些產品可能會顯示思考過程 , 但顯示這個過程可能已經是幾秒前的 , 做決策時確實利用到了 , 不管是做 CoT (思維鏈) 還是描述場景來做決策 。 但這些顯示的信息可能更多是為了展示智能化 , 對整個自駕體驗沒有特別大影響 。

我覺得最終的 VLA, 思考過程可能并不需要用這么口語化的文字來描述場景和做推理 , 因為這些口語化的詞是很冗余的 。 最終的 VLA 可能更類似人腦的思考方式 , 我可能不需要說出來也可以去思考 , 甚至可以利用更簡短的token, 甚至是一些隱式的 token 來做思考 。 這樣會更高效 , 不需要輸出很長的思維鏈 , 只需要輸出一些精簡的 token 就可以最終做決策 。 而且自駕是一個實時要求比較高的系統 , 不可能接受你sample 這么多 token 最終做出決策 。

DeepTech:所以也很難中途打斷 , 比如像現在告訴司機一樣說“前面右拐”?

陳龍:對 , 現在 VLA 范式是沒有這個打斷功能的 , 只能是你說出指令之后再重新執行理解指令語義的過程 。

五、機器人對語言的要求更高

DeepTech:在機器人上呢?

穆堯:機器人的 VLA 非常難 。 大部分機器人 VLA 的訓練都是以一個 well pre-trained (預訓練好的)的 VL model, 然后后面接 expert(專家模型)。 以目前最著名的 Physical Intelligence提出的 π 系列為例 , 前面是 Google 提出來的 PaLM (一種大語言模型), 是一個 well pre-trained 的視覺語言模型 , 后面接了一個以 flow matching(流匹配)為原理的 action expert(動作專家)網絡 。

本質上機器人對 language 的要求非常高 。 首先 , 機器人要做任務拆解 。 自動駕駛可能就是按照固定的期望路線安全行走、不發生碰撞、到達目的地就可以了 。 但機器人比如聽到人類的指令“請你幫我做一杯咖啡”, 要具體到動作原語 —— 拿出什么東西、放下什么東西、打開什么東西、把什么東西從左邊挪到右邊 。 機器人需要把人類非常抽象的指令分解成動作原語級別 , 然后每個原語作為一個 language condition (語言條件)去輸出對應的 action。 從這個角度來說 ,language 對機器人意義非常大 。

VLA 大部分是 3B 左右的 , 比較大的會有 7B、 8B 的 , 但目前還沒有看到13B 的 。 所以我覺得它算是一個比較大的“小腦” , 可能還沒到“大腦”的 level。 但關于機器人大腦的研究也非常多 , 以視覺語言為主的大腦研究 , 大家會做更長程任務的推理 。 大家對機器人的期待是人類都不用說話 , 機器人通過視覺觀察能做邏輯推理——你當前是什么狀態 , 是不是疲憊了、是不是渴了 , 疲憊困了我給你端來一杯咖啡 。 所以在機器人這端 ,language 起到非常重要的作用 。

DeepTech:我們聊機器人時往往會聊“大腦”和“本體” 。 像宇樹做本體 , 很多實驗室或公司專注做大腦 , 只要采購到強的本體就可以了 。 你剛才提到研究大腦用到的模型參數量都更大 ,VLA 是不是把大腦和本體都統一到一個模型里面了?

穆堯:VLA 實際上兼顧了一些大腦的能力 , 比較簡單的邏輯推理是可以做的 , 比如 pick and place(拾取和放置) 這些簡單任務 。 更大更復雜的推理可能還需要更大的大腦 。 目前一個比較主流的范式是端云協同 , 大腦跑在云端 , 一個稍微小一點的模型跑在端側或邊端 , 最底層比如人形機器人的運動控制屬于純小腦 , 也跑在端側 。

DeepTech:相當于 VLA 模型部署在本體上 , 還有一個更大模型的大腦在云端?

穆堯:對 , 目前這一塊業界解決方案沒有特別好 。 能在端側芯片部署 VLA 模型的板子也不是很多 , 大家可能更多是以比如 4090 的服務器來做 , 屬于邊端 。

DeepTech:所以在機器人的控制中 , 目前還是大腦和本體分離的狀態 。

穆堯:13B 以上的大腦一般都是跑在云端的 。

六、自動駕駛與機器人能共用一套底座模型嗎?

DeepTech:我們看到很多報道說機器人和自動駕駛能共用一套底座模型 。 小米也剛開源了打通自動駕駛和具身的基礎模型 。 這兩者之間有哪些挑戰?技術上有哪些解決思路?

陳龍:肯定有很多挑戰 。 本質上我們想要解決一個跨本體的問題 。 人類不管是在家做家務、操作物體 , 還是在室外開車 , 是用一個大腦做這些不同行為的 。 我們認為最終不管是具身、自駕還是其他任務 , 都要共用一個大腦模型 。 這樣我們的大腦模型才具有很強的對世界的認知能力 , 而且統一的模型可能使任務的連續性更好 。

我們前段時間發布了一些探索性工作 , 叫 MiMo Embodied, 和小米集團的 MiMo 模型團隊一起做了一些具身大腦的探索 。 本質上是使用自駕數據和機器人數據 , 進行融合 , 通過分階段訓練:第一階段加入很多空間智能數據 , 讓它學習空間感知和空間推理能力;第二階段放入自駕和具身的專有數據;第三階段通過 CoT 微調;第四階段使用強化學習微調 。

通過這四階段訓練 , 我們發現自駕和機器人的數據是可以融合的 。 它們共有的能力 , 也就是空間感知和空間推理能力 , 是可以互相加強的 。 一個是室內數據(具身操作), 一個是室外數據(自駕場景), 如果訓練得好是可以互相增強的 。 這也是我們前期具身基座模型的探索 。

這是比較大的模型 , 大概 7B。7B 的模型尺寸在端側也不能完全部署 , 而且需要使用很長的思維鏈方式進行推理 , 最終可能是一個云端模型 。

七、數據問題:自動駕駛 vs 機器人

DeepTech:陳龍聊到數據問題 。 我感覺自動駕駛數據可能更好獲取 , 機器人數據更難獲取 , 是這樣嗎?

穆堯:是的 , 這也是具身智能行業和自動駕駛產業一個根本性的區別 。 自動駕駛產業所有跑在路上的車都可以回流作為專家數據 , 當然要經過大量清洗 , 但每天可以回流上億條數據 。 而具身智能把所有開源的閉源的加在一起 , 可能也沒有 1 億條數據 , 數據體量差距很大 。

所以具身智能學術界和工業界想了各種辦法 , 包括仿真合成數據 , 包括用人類更便攜的方案比如 UMI 這樣的手持式設備采集 , 本質上都是希望以廉價成本 scale up (擴展) 數據 。 但核心困境還是需要人主動去收集 , 沒有一個自動的飛輪 。 我們很期待在某一個產線、某一個商業場景下的機器人真正能 24 小時轉起來 , 這樣就可以產生源源不斷的數據飛輪 。 自動駕駛天然就有這樣的優勢 。 但我覺得大概兩年之內 , 具身也會有一個初步的數據飛輪出來 。

DeepTech:數據方面前期調研時 , 我看到穆堯有“人 - 數字人 - 機器人”一體的架構 , 也是為了解決數據問題嗎?

穆堯:對 , 核心就是解決數據問題 。 人類數據是最本質的 , 所有機器人都應該向人學習 , 而且人的數據最廉價、最容易收集——戴個 AI 眼鏡 , 或者頭頂上綁個相機就可以采集 。 但人和機器人確實 gap(鴻溝)比較大 , 所以我們提出 “人 - 數字人 - 機器人” 的三位一體管線 , 希望搭建好從人的行為到機器人行為的調節 , 把人的數據利用效率大大提升 , 并且為仿真合成數據注入人類豐富的行為信息 , 使行為多樣性有顯著提高 。

DeepTech:機器人和自動駕駛數據的 gap, 陳龍怎么解決?

陳龍:穆堯說得非常好 。 自駕因為汽車本身是很好的產品 , 用戶會去開車 , 所以采集數據更方便 , 每天會有很多數據傳上來 。 而且數據多樣性非常好 , 全國不同省份都有人在開小米汽車 。

具身的問題是現在沒有成熟的產品在用戶側使用 , 沒有數據飛輪效應 。 現在大家都是自己建采集場或小規模采集數據 , 不管數量還是多樣性都非常有限 。 現在有很多人用合成數據來增強真實數據的不足 , 但本質上量和多樣性都跟自駕差得很遠 。 所以為什么 VLA 這么火 , 其實也是利用了 VLA 的泛化性來解決數據缺少的問題 。

當你有了一個很強的 VLA 模型 , 可能真正需要的數據就不需要那么多了 。 打個比方 , 如果你教人一個新任務 , 不需要很多數據 , 可能只需要幾條 demonstration (演示), 人就可以學習出這個任務具體應該怎么做 。 所以當VLA 模型做得非常好 , 它的泛化能力和三種模態的 grounding (接地) 做得非常好時 , 可能并不需要特別多的數據 , 只需要幾條演示數據就可以把任務做得非常好 。 數據少的時候 , 模型側可以做更多優化來彌補 。

DeepTech:這兩部分數據的融合 , 穆堯怎么看?

穆堯:這兩部分數據有 gap。 機器人的數據聚焦點主要在操作臺上面 ,focus 一些非常小的物體 。 自動駕駛可能關注的更多是路況、行人、紅綠燈這樣的信息 。

但兩者的交匯點是 World Model (世界模型), 這是一個非常好的交匯面 。 一個通用的對未來數據的推演 , 自動駕駛的能力能夠為機器人賦能 。 因為機器人也需要導航 , 也需要 mobile manipulation (移動操作) 或 locomotion (運動)。 自動駕駛的數據能為機器人提供的服務是空間理解和推理——知道這個車往前走一段 , 視野會變成什么樣 , 近大遠小這些 common sense(常識)是可以獲取到的 , 這種基礎知識對機器人學習有很大幫助 。

當然二者的 attention 和 focus 各有側重 。 自動駕駛會跟車道線、紅綠燈、行人、車輛的 feature(特征)更相關;具身可能 focus 在一些具體的起草物體的交互 。 所以在設計網絡時 , 要能讓它們共有的知識得到促進作用 , 并且有效分離開 。 對應的網絡結構設計也是比較需要的 。

八、安全性問題:如何保證 VLA 不出錯?

DeepTech:不管自動駕駛還是機器人和人的交互 , 都有一個繞不開的話題 —— 安全性 。 我們都知道語言模型有幻覺問題 。 在電腦上和大模型交互時 , 錯了我們人為改正就行了 。 但在自動駕駛和機器人的交互過程中 , 穆堯也提到工業上還做不到四個九 。 在這個安全性極高的場景里 ,VLA 是如何保證它既有泛化能力 , 又能解決長尾問題 , 同時又不會出錯的?

穆堯:我能想到的路徑主要是強化學習 。 安全分兩塊:一塊是意識層面的安全 , 不能做出傷害人類的行為、危險的行為;另一塊是行為動作上的安全 , 也就是 safety (安全性)。

在意識層面上 , 大模型包括 LLM (大語言模型) 的安全對齊主要通過強化學習來做 。 對于操作的精準度、不能發生碰撞等安全性問題 , 強化學習也是非常好的手段 。 我們有一篇 paper 叫 Simple VL-RL, 首次在一些標準 benchmark 上達到了兩個 99% 的精度 。 離工業四個九還稍微遠一點 , 但已經看到很大的曙光 , 強化學習確實在這一塊能帶來比較好的性能提升 。

DeepTech:陳龍有什么看法?

陳龍:自駕還是不太一樣的 。 具身你是可以試錯的 , 不僅能在虛擬環境中做強化 , 在真實世界中也可以做強化學習 。 自駕畢竟安全性是第一位的 , 更多的是從系統層面上做安全性冗余 。 大模型可能會有幻覺問題 , 純模型可能都會有不可預測的問題 。 在自駕安全性要求這么高的環境下 , 肯定需要很多不同的網絡做兜底 。

比如在運行 VLA 的時候 , 我們可能還有另一套網絡 , 比如傳統的感知和規控網絡不斷做 safety check(安全檢查), 做一些簡單的安全性檢測 , 比如未來幾秒會不會碰撞、會不會有風險 。 這類傳統算法穩定性都非常好 , 當我們檢測到有風險時 , 可能會用其他模型來做安全操作 。

DeepTech:相當于有一個校驗過程或安全兜底的過程?

陳龍:是的 , 在自駕安全性要求這么高的情況下 , 肯定需要安全兜底 。

九、實時性問題: VLA 的延遲怎么解決?

DeepTech:另一個我比較關心的點是 , 如果加入語言的決策邏輯 , 我們都知道像 DeepSeek 在思考過程中是非常慢的 。 模型在調用過程中還是有時間響應上的問題 。 這個問題在自動駕駛和機器人上怎么解決?現在能做到多少毫秒的響應?

陳龍:自動駕駛不僅要求安全性高 , 對實時的要求也非常高 。 最少要到 10 赫茲的級別 , 每秒要做十次決策才能做一些比較快的響應 , 比如緊急情況下的響應 。 所以我認為 VLA 模型在自駕上可能還需要一些范式上的轉變 。

現在有所謂的 “雙系統”,VLA 作為一個慢通路 , 還有另一個快系統 , 可能是端到端模型或其他模型 。 大語言模型和端到端模型可以運行在不同頻率上 —— 大模型可能每秒做一次決策 , 做比較深度的思考;端到端模型可能運行在十赫茲 , 做快速響應 。 但這類方式有個通?。 捍竽P偷木霾吆投說蕉嗽趺唇岷?, 是比較困難的問題 。

另一端是 VLA 本身 , 往往我可能每一幀都要做一個 CoT 的思考 , 或者比較高級的是知道什么時候要做 CoT 思考 , 但這還是有問題 。 因為當你需要 CoT 思考時 , 可能是比較緊急的情況 , 但這時候做很多 CoT 思考 , 最終做決策的時間就會很長 , 可能導致安全性問題 。

所以不管是雙系統還是一端式 VLA 都是兩個極端 , 要不然思考時間過長 , 要不然雙系統區分得太明顯 。 肯定之后會有比較中間的方案 。 因為人類開車時也是在不斷思考 , 邊開車邊思考 , 有時候思考的東西可能跟開車沒關系 , 你可能會走神 , 但這時候有時候你也可以安全地開車 。

最終需要另一種范式轉變 , 更靈活、更緊密、更解耦的雙系統結合方式 , 需要在網絡上面做一些探索 。

DeepTech:你提到這個我也有感觸 。 平時開車時如果車比較少 , 很容易走神 , 不需要調動特別高的思考能力;但堵車或想超車時 , 肯定要全神貫注 , 可能調用了更多的思考能力 。

陳龍:對 , 或者在緊急情況下 , 你可能來不及思考 , 可以通過直覺系統來做出決策 。

DeepTech:語言響應延時的問題 , 穆堯怎么解決或有什么看法?

穆堯:對具身來說 , 更重要的是 action 的延遲 。 對于語言 , 你問它一句話 , 等一會兒也沒什么太大問題 , 而且完全可以變成并行或異步的部分 , 當對身體沒有明顯指令時 , 完全可以云端處理 。

對于需要 VLA 都做推理的任務 , 實時要求還是比較重要的 。 像陳龍說的十赫茲 , 機器人也需要十赫茲以上的推理頻率 。 一個比較好的方案是異步推理 , 像 Dexterous AI 提出的執行和推理是異步的 , 沒推完的接著推 , 但該執行的去執行 , 構建一個異步的 system (系統) 來做 。

包括推理也可以并行化 , 特別是如果有云端加持 , 完全可以做并行化 , 根據任務是否有依賴性來完成是否并行的處理 。

DeepTech:你剛才提到本體的實時 , 是目前機器人更大的問題嗎?

穆堯:不是本體的實時 , 而是 VLA 從輸入圖像到輸出action 開始執行這段時間 , 是推理時間 。 因為模型比較大 , 會比較慢 。 3B 的模型差不多將將滿足十幾赫茲的要求 。

DeepTech:執行效率會比傳統方式要慢一些嗎?

穆堯:也有很絲滑的 , 不能一概而論 。 正常一個 3B 模型4090 上部署 , 響應頻率差不多 15 赫茲左右 。 但有很多方法 , 比如模型輕量化、工程優化 , 可以使它變得更絲滑 。 包括插值 , 可以使真正的本體執行頻率很高 , 甚至可以達到 200 赫茲 。 像 Figure AI 就號稱執行頻率是 200 赫茲 , 但實際上是插值之后的 , 插值之前其實和大家差不多 。

所以有很多工程手段去解決 。 但更關鍵的是影響動作最終做出來絲不絲滑、哆嗦不哆嗦、成功率高不高的本質上的控制頻率 , 還是由VLA 看到圖像然后出 action 這段時間來決定的 。

十、思考與執行可以并行

DeepTech:我綜合兩位的觀點 , 能感覺到它的思考鏈是一條鏈路 , 而執行的過程不一定等思考全部完成了之后再執行 。 思考鏈可能會非常長或非常連續 , 而執行過程在某一個階段就可以開始執行了 。 這樣在我們體感上 , 延遲就不會像現在用大語言模型看它思考那么長時間才能給出結果 。

這就會面臨另一個問題:執行過程中 , 比如自動駕駛一直在開車 , 思考一直在進行 , 一直有 token 產出;機器人執行過程中也是這樣 。Transformer 都會面臨遺忘的問題 , 過去不管多長的文本模型都會有遺忘 。 遺忘的問題對自動駕駛和機器人會是問題嗎 , 包括訓練時遺忘與執行時遺忘 。

陳龍:訓練時更多的是通用能力有一些災難性遺忘的行為 。 現在 VLA 如果在實驗室做小規模 finetune(微調), 可能并沒有很大規模的預訓練能力 , 做完 VLA 訓練后通用能力就會有一定缺失 , 遺忘了很多通用知識 , 模型就變成一個專有的自駕或具身模型了 , 通用能力幾乎就沒有了 。

舉個簡單例子 , 如果你做很小規模的微調 , 問它一些通用知識比如“一加一等于幾” , 它會回答一些無關的東西 , 比如“前面有一輛車” 。 所以訓練時要解決遺忘問題 , 更多的是要把很多數據加入預訓練階段 。 預訓練時不僅學習通用知識 , 也學習到自動駕駛或機器人的知識 。

推理時更多的是 context window(上下文窗口) 的問題 。 當延時要求非常高時 ,context(上下文) 不能堆得特別長 , 肯定要做一些選擇 。 但現在有很多大模型技巧 , 比如 linear attention(線性注意力機制), 可以把 context window 做得非常長 , 但延時也不會變得特別高 。 還有可以做 context 的壓縮和總結 。

你不需要把之前所有信息都加入 context, 只需要把關鍵信息加入 。 比如在路口選擇了往哪邊走 , 這些關鍵信息可以加入歷史 context ;而一些無關緊要的信息比如現在執行開了多少米 , 這些信息其實不是特別關鍵 , 可以忽略掉 。 所以最終 VLA 的形態肯定類似人 , 更加智能 , 可以記憶比較關鍵的信息 , 無關緊要的信息不需要做歷史記憶 。

DeepTech:在機器人領域呢?

穆堯:在機器人領域一般有兩大類方法 。 一類是用 neural (神經) 的方式 , 就是剛才陳龍講的壓縮方式 ,embed (嵌入) 出來一些關于 memory (記憶) 的 token, 然后當前的觀測視覺和語言的 token 去 query (查詢) 這個 memory bank (記憶庫) 里面的 memory token (記憶令牌),query 出來一些 historical token (歷史令牌) 作為 VLA 的 prompt (提示詞)。

另一類是顯性的總結 , 有一個額外的 agent system 。 舉個例子 , 機器人里很簡單的一個任務但非常需要 memory, 就是“click the bell(按鈴)” , 在桌子上需要按響一個鈴 。 當我的機械臂懸空到這個鈴之間的位置時 , 我只靠單幀的圖像根本不知道我是已經按完這個鈴了 , 還是還沒有按它要去按它 , 還是已經按完要回退 。 所以這里面就需要 memory。

一種方式是 embedding(嵌入)的方式;另一種是顯式summary(總結), 用 VL 的 language 去 summary 一下 , 比如“我當前已經按過它了 , 現在是回退狀態” 。 相當于做了一個 CoT, 隨著CoT 把一些重要的信息以文字形式總結下來 , 作為后面的輸入 。 一種是隱式的 , 一種是顯式的 , 都是 prompt 的形式 。

DeepTech:如果是更多的記憶 , 機器人在執行過程中也不需要記憶非常多的信息 。

穆堯:其實執行只跟當前有關系 , 當前任務幾個工具 。 它做過的其他任務 , 知識是藏在權重里面的 , 那是學習訓練的時候 。

DeepTech:也就是說執行當前任務時 , 并不需要關注之前做了什么任務 。

十一、世界模型與空間智能:爭論還是融合?

DeepTech:我們聊了很多技術上的問題 。 我在做前期調研時也看到很多開放性的探討 , 比如最近比較火的世界模型、空間智能和大語言模型的爭論 , 好幾個大佬都在聊空間智能的問題 。 兩位怎么看?

穆堯:我覺得空間智能和語言好像沒有什么太多可爭論的 , 它們兩個都非常重要 。 對機器人來說 , 因為具身智能本身就是計算機視覺、自然語言處理、 機器人本體、控制理論幾大交叉學科于一體的方向 。 對于具身智能機器人 , 空間認知感知能力和語言模型的推理能力都是非常重要的兩個部分 。

對于空間來講 ,World Model 就像你剛剛提到的 , 是非常好的方式來做具身智能的預訓練 。 為什么呢?因為視頻或圖像是最豐富的一種形式 , 人類世界當中有無數人做各種任務的視頻 , 包括自動駕駛的任務 —— 往前走、往后退 , 形成對世界的三維空間認知 , 知道走近之后的視野會變成什么樣、走遠之后的視野會變成什么樣 。

而且 World Model 天然可以把機器人和自動駕駛的 world model 放在一塊訓 , 完全沒有問題 。 數據格式是統一的 , 不像 VLA 的話 , 機器人的 pose(姿態)、action 信息和汽車的方向盤轉角、油門開度是完全不一樣的 。

所以 World Model 是一種更通用的對于空間推理的手段 。 特別是預測未來幀也好、預測未來的隱藏狀態也好 , 它都是一種通用的、面向全模態所有本體的空間推理預訓練的非常有效范式 , 真正能把所有數據源有效調動起來去訓練一個 foundation (基座)的手段 。 這一塊我相信目前學術界和工業界給予了非常大關注 , 在大家努力下也會有很多 promising (有前景的)的成果出來 。

DeepTech:所以空間智能其實也拋棄不了語言的環節 。

穆堯:對 , 語言也很重要 。 自動駕駛里向左轉、向右轉是完全不一樣的 。

陳龍:我覺得 World Model 和 VLA 解決的是不同的問題 。 像穆堯講的 ,World Model 是通過對下一幀圖像或下一個狀態的預測 , 學習到這個世界上的一些本質 , 比如這個車未來應該如何運動 , 通過學習預測的能力學習到一些世界本質上的物理規律 。

VLA 更多的是學習到一些 high level (高層級) 的人類規則 , 通過互聯網上的文字訓練學習到人類對這個世界的定義 , 包括人類的價值觀 , 以及很強的通過文字的推理能力 。

World Model 這個 low level(低層級)的預測能力和 VLA 這個 high level 文字推理的能力 , 本質不沖突 , 是可以互相結合的 。 現在也有很多研究在把這兩個不同的能力給它結合起來 , 形成一個更好的模型 , 既能預測未來的圖像 , 也有視覺語言的能力用語言做推理 。 我覺得最終肯定要把這兩種能力融合 。

DeepTech:目前討論比較熱烈 , 我感覺更多是語言模型因為只聚焦于語言 , 很難把世界模型加入進來 。 加入實踐模型之后 , 這兩個模型最終會路線收斂 , 有相互交叉、相互補齊 。

十二、如何看待對 VLA 技術的質疑?

DeepTech:另外還有一個相對尖銳的問題 。 前段時間在世界機器人大會上 , 王興興比較質疑 VLA 技術 。 你們怎么看這個問題?

穆堯:我覺得觀點的不同主要是因為從不同的角度 。 從我們做研究的角度 ,VLA看到了很大的機會 , 所以需要投入 。 但我相信所有 VLA 的研究者都會坦誠承認 , 目前達不到工業上四個九的要求 。 但它是不是promising 的?我覺得是 promising 的 。

王總的觀點可能是因為他們做本體 , 要求非常嚴格的安全性、準確率、效率 。 宇樹的機器人踹多少腳都不倒 , 可以做非常復雜的運動 。 我覺得本身技術就是我們在不同路線上去做 , 會有一個交匯點 。VLA 很多能力也是受限于本體 , 比如有些機械臂和靈巧手它就很笨拙 , 效率跟人是沒辦法比的 。

我覺得也很好 , 大家努力的方向有從不斷完善本體的易用度、可靠性、成本的 , 我們這邊做 VLA 對大多數公司來說屬于一個預研的項目 。 當兩方技術逐漸交疊 , 整個具身智能是一個軟硬件協同發展的系統 。 當軟硬件真正發生碰撞在一起的時候 , 大家的看法都會改變 , 也都會有新的共識 。

像現在來看有一些比較好的 demo , 像字節發出來的 VLA 能夠去穿鞋帶 。 這個在我當時讀博士的時候 , 實驗室還討論過這個任務 , 當時我們認為誰要是能做一個這個 , 可以說是一個很驚動的話題 。 但現在已經被實現了 , 技術發展確實很快 。

2024 年的時候 , 基本上人形機器人都是跌跌撞撞的 , 上個樓都費勁 。 現在其實已經起飛了 , 你看它做很多復雜的動作都可以做 。VLA 這一塊 , 像疊衣服現在甚至都說是具身公司的一個“MNIST(手寫數字數據集)”, 就相當于圖像識別里面最簡單的數字 , 哪家都能疊衣服了 。 但 2024 年是不可想象的 , 那時候抓蘋果都費勁 。 整整只過了一年 , 就是天翻地覆的變化 。 我覺得很快隨著軟硬件的交匯 , 我們會有一些更新的共識出來 。

陳龍:當一個技術剛興起的時候 , 會有一個類似于新興技術的曲線 。 剛開始大家把熱度炒得特別高 , 會有很多demo出現 。 后來發現可能對它期待太高 , 沒有實現人類的期待 , 這個技術又會跌到谷底 。 慢慢經過幾年發展 , 才最終達到很好用的狀態 。

我是一個比較長期主義的人 。 現在 VLA 可能確實有很多問題 , 不管是效率還是幻覺問題 , 雖然它泛化性很好 , 但最終的成功率可能并沒有達到人類的期待 。 但我覺得不應該因為它現在的問題來全盤否定這個技術 , 更多的是看到這個技術的潛力 , 包括它未來的發展方向 。

我覺得 VLA 是現階段最能實現物理世界 AGI 的一個框架 。 語言也是人類這么多年智慧結晶的體現 , 互聯網上這么多數據融合了人類的很多智慧 。 最終語言肯定是智能的一個很大的模態 , 是必不可少的 。VLA 這個架構可能也是最終通往 AGI 必不可少的一個框架 。 雖然它的網絡結構比如 transformer 可能并不是最終理想的架構 , 但語言這個模態我覺得肯定是一個終局 。

不管是物理世界的 AGI 還是 AGI, 我覺得都需要語言這個能力 。 所以不能因為 VLA 現在有很多問題來否定這項技術 。 而且 VLA 還有世界模型可能太容易理解了 , 現在有很多人利用自己對它的理解來做一些推演 , 來否定這項技術 。 還是應該真正務實一點 , 把 VLA 以及世界模型這些技術的底層技術做好 , 最終才能共同促進這些行業的發展 。

DeepTech:因為這個技術原理在大眾看來相對簡單 , 但技術實現上是非常難的 。 或者說 transformer 的架構只要研究一段時間都能理解 , 但具體實現就很難 。 VLA 也是一樣的 , 技術原理和邏輯相對簡單 , 但每個人對這個技術的理解不一樣 , 在發展過程中面臨的問題的解決方案不一樣 , 跨越某項技術鴻溝的難度和時間也不一樣 。 隨著技術發展 , 這些問題都能一步一步慢慢解決 。

【十二個問題解剖VLA,深度對話小米陳龍、上交穆堯】排版:olivia

    推薦閱讀