十二個問題解剖VLA，深度對話小米陳龍、上交穆堯

2026-04-27 機器人自動駕駛小米科技

2025 年末，首批 L3 級自動駕駛車型獲得準入，標志著中國智能駕駛產業邁入新紀元。與此同時，具身智能機器人領域也在過去一年間經歷了“天翻地覆”的變化，從 2024 年初“抓蘋果都費勁” ，到如今疊衣服已成為行業的入門任務，穿鞋帶這樣曾被認為遙不可及的精細操作也已被攻克。

在這場技術躍遷的背后，一項被稱為 VLA（Vision-Language-Action ，視覺語言動作大模型）的技術正成為連接自動駕駛與具身智能的關鍵樞紐。不同于傳統端到端模型從視覺直接映射到動作的“條件反射”式決策， VLA 將語言理解與推理能力引入物理世界的決策鏈路，賦予機器“看了就懂、懂了就做”的認知能力。

然而， VLA 的興起也伴隨著爭議。在 2025 年世界機器人大會上，宇樹科技創始人王興興公開質疑這一技術路線，引發行業熱議。這場爭論的背后，是軟件與硬件、泛化性與可靠性、學術探索與商業落地之間的深層張力。

為深入探討這一前沿技術的本質、挑戰與前景，我們邀請到兩位走在 VLA 研究最前沿的嘉賓：小米汽車智能駕駛 VLA 技術負責人陳龍，以及上海交通大學計算機學院助理教授、ScaleLab 負責人穆堯。他們分別從自動駕駛和具身智能機器人的視角，為我們拆解 VLA 的技術內核，剖析數據困境與安全挑戰，并回應來自產業界的質疑。

以下是本次對話的完整內容。

一、什么是 VLA ？

DeepTech：先請兩位解釋一下什么是 VLA 技術。

陳龍：VLA 是最近幾年比較火的一個話題。它本質上是利用大語言模型的泛化能力，包括從互聯網數據預訓練得到的通識知識，再輔以語言模態的推理能力，來解決現實世界中行為決策的問題。

現在不管是自動駕駛還是機器人，VLA 都非常火。因為自動駕駛面臨很多長尾問題，當你在路上開車時，大部分時間遇到的是見過的東西，但有時候會遇到沒見過的場景，這時候就需要思考能力，在這些場景下做出更好的決策。

機器人也在利用 VLA 的能力，主要是因為機器人的任務比較復雜，有很多長程任務。它需要利用語言能力來理解人類給它的任務，包括對整體任務的拆解，把它分解成 sub task （子任務）來執行。所以總體來說，VLA 是未來物理世界人工智能發展的趨勢，是大模型能力走向物理世界的必要網絡架構。

穆堯：VLA 給機器人帶來了非常大的機會。具身智能和傳統機器人研究的一個很大不同點在于，具身智能更關注泛化性，包括對場景的泛化性、視覺和物理上的泛化性，也包括我們希望交互的物體的不同形狀、顏色等更細致的泛化性。

在 VLA 技術下，實際上賦予了機器人幾方面的能力：第一，使機器人能夠用語言溝通，聽懂人類指令；第二，由于 VL （視覺語言模型）在大規模互聯網數據上進行了很好的預訓練，可以有非常好的場景和視覺上的泛化性，逐漸邁向開放世界；第三是 A （Action，動作）這一塊，怎么把 VL 對接到 A 上，在機器人領域目前還處于研究探索階段。當然已經有一些比較好的模型出來，比如 π0 、 π0.6，展現了一些精細操作的能力。

VLA 帶給機器人的核心機會在于賦予了機器人一個柔性的能力。之前機器人可能要寫死一些機械定位，差一點都不行；現在可以根據情況隨機應變。當然這部分泛化性目前還沒有達到工業上真正四個九的要求，所以不管是學界還是工業界，都在逐漸發力。

DeepTech：過去訓練機器人或者機器人的工作方式是什么？

穆堯：傳統機器人大部分面向特定場景、特定任務，在這個任務上達到 SOTA （當前最佳水平）。傳統的方法基于規劃加柔順力控，或者基于強化學習，解決的核心問題都是單一場景、單一任務的。當具身智能要求走向多任務、開放世界、開放場景時， VLA 就成為非常重要的實現路徑。

DeepTech：舉個例子，現在的機器人更多在工業上應用，未來走入生活場景，是不是就用到了 VLA 的核心技術？因為生活中的場景和指令都是非標準化的。

穆堯：是的，家庭場景最符合具身智能的要求，當然也是最難的。但工業場景的泛化性要求也很高。到現在能通過自動化產線完成的都已經大規模在做了，比如小米汽車的生產線，除了最后的總裝車間，其他車間都是 95% 以上自動化。剩下需要人類操作的部分，往往是因為單獨搭建產線非常昂貴，而且可能今天來的是這批零件，明天來的是另一批零件，有柔性生產制造的需求。這種需求本質上還是對泛化性的需求，所以工業場景上也有很大的應用空間。

二、 VLA 與端到端自動駕駛的區別

DeepTech：VLA 技術在自動駕駛上，和現在的端到端自動駕駛有什么區別？

陳龍：自動駕駛研究了幾十年，是比較有歷史的方向。早期類似穆堯講的機器人方法，是模塊化的方式來實現—— 區分感知模塊、預測模塊和規控模塊。感知通過計算機視覺模型檢測物體，預測會預測每個車的運動軌跡，規劃則利用路徑規劃算法，在知道周圍物體和它們未來運動的條件下，規劃出自車的運動軌跡。這是自動駕駛的第一階段，通過規則算法來實現。

端到端是最近幾年才興起的。我之前在 Wayve ，我們從 2018 年就開始做端到端自動駕駛，當時還是比較激進的方式。端到端本質上非常簡單，就是使用一個大模型，利用很多收集起來的自動駕駛數據，訓練一個端到端的模型，直接把傳感器輸入映射到駕駛信號上面。

端到端解決了傳統算法的很多問題，因為傳統算法需要手動設置很多規則，比如紅燈情況下怎么樣、遇到別的車應該怎么做。端到端不用手動設計這些規則，而是通過數據驅動的方式，利用大量人類駕駛行為，讓神經網絡學習這些行為并進行擬合。

但它也有很多缺點：首先是黑盒模型，你不知道它的決策是怎么做的，不是特別可控；第二是對長尾問題的泛化性不夠好，因為現實生活中有很多場景是收集數據收集不到的，遇到這種場景可能就會做出錯誤行為。

VLA 本質上就是為了解決這些問題。首先是可解釋性，VLA 通過語言可以做出解釋，包括決策的原因，你可以通過這些原因了解它是怎么做決策的，透明度會加深。其次，VLA 可以提供比較好的推理能力，特別是 VLM （視覺語言模型）可能經過互聯網知識的預訓練，對世界的通識知識、人類的價值觀都有一定了解，再輔以推理能力，可以在長尾情況下通過推理做出更正確的決策，使自動駕駛更加安全、泛化性更好。這也是為什么 VLA 在最近幾年慢慢興起，成為主流方向。

三、什么是長尾問題和泛化問題？

DeepTech：兩位反復提到長尾和泛化。能不能舉一些特殊的例子，幫助我們了解機器人或自動駕駛在某些場景下失效的情況？

穆堯：在機器人上，泛化的圈子會畫得比較大。可以細分為：首先是背景，就是操作臺以外的所有背景，涵蓋各種光照信息、復雜的 layout （布局）分布；再往上是前景，就是當前機器人的操作臺和 target （目標）物體；同時桌子上還有各種雜物——我們每個人家庭的桌子不是一塵不染的，有各種東西，所以操作臺上有任務相關和任務無關的物體。

最細的層級是任務相關物體本身。比如任務是收拾桌子上的瓶子，瓶子的種類很多——可樂、雪碧是圓柱形的，東方樹葉是四棱柱的，形狀都不一樣。這就是從最粗到最細粒度的泛化。

什么是長尾呢？長尾是一些在預收集數據中很難出現的狀況。比如機器人在夾東西時掉下來了，或者夾東西時碰到了某個東西，或者嘗試抓取時東西被碰倒了。人類一次嘗試沒成功，東西倒了之后我們知道怎么抓，但機器人可能完全沒見過這個倒下的狀態，很難 recover （恢復）。還有更具有挑戰性的長尾，比如場景中有第三個可移動的物體——人。一個人直接把你本來瞄準好的物體位置變了，或者把立著的瓶子弄倒了，把茶杯弄翻了，這就是長尾。

專家數據集也會包含泛化部分，包括場景泛化、操作臺泛化、任務無關物體泛化、任務相關物體泛化，這些都會有。但有些突發情況是專家數據集很難收集到的，一般要通過真機強化學習這樣的方式才能收集到。

DeepTech：在自動駕駛方面呢？

陳龍：自動駕駛方面定義也類似。你的專家數據集不可能把所有場景都收集完，因為道路上有很多不可預知的事情。比如我們在新的地方開車時，會碰到不一樣的交通標識牌或不一樣的場景。人在新環境下也會遇到很多長尾問題，有時候也會開慢點或停下來想一想具體應該怎么開。

DeepTech：就是說有的路口只有本地人才能走對？

陳龍：對，類似這種。VLA 比較適合解決這些長尾問題。具體例子比如施工場景會有一些標識牌，每個標識牌都不統一，有的畫了車輛和箭頭示意你應該往哪個方向走，有的是文字形式，有的是其他方式指示你應該怎么走。在這種非結構化信號下，需要 VLA 對整個場景的理解，包括利用互聯網預訓練知識進行理解和推理，得出在這個長尾問題下應該具體做什么決策。

VLA 還解決了比較長序列的問題。比如開車時拐進了一個死胡同，應該倒車退回去換一個路口。但如果沒有 VLA，你可能開到死胡同里，即使知道退回來，也可能再開到這個死胡同里，因為你不知道剛才已經開到這里了。VLA 可以在需要長時記憶的情況下，用語言這個比較抽象的模態來做長期路徑規劃。

四、 VLA 不只是加了一層語言

DeepTech：傳統或現在用的是從視覺直接映射到動作， VLA 是從視覺映射到語言再映射到動作。是不是只是在中間加了一層語言？還是 VLA 中間加入語言能解決一些其他核心問題？

陳龍：肯定不是只加了一層語言。這本質上是一個范式轉變。VLA 利用大模型的范式來訓練自動駕駛或機器人算法。VA（視覺動作）是直接把圖像映射到最終的 action（動作）上，不管是自動駕駛的端到端算法還是機器人比較經典的 ACT （動作分塊）算法，本質上沒有利用模型的思考能力。VLA 本質上轉換到了認知驅動的范式，通過大模型的能力，利用大模型的知識和推理能力來解決路徑規劃或抓取導航這些問題。

現在自動駕駛領域對 VLA 的理解都不盡一樣。我個人理解，本質上 L 這個模態是對圖像的補充。VA 只有圖像和傳感器信息來做一次決策，而 L 可以通過語言模態不斷 sample （采樣）下一個 token 。通過這個 sampling 的方式，sample token 的過程其實是信息量增加的過程，熵也是一個減少的過程。

所以通過首先有圖像，然后不斷 sample 語言 token 帶來信息量增加的過程，最終做決策時是通過圖像信息輔以語言 sample 之后的信息，共同做出決策。理論上比只用圖像做決策會更好。VLA 是利用了語言的預訓練能力和推理能力，進一步增強了決策過程。

DeepTech：我看到過一些自動駕駛 demo，會把思考邏輯打在車機屏幕上。在我們看來，它相當于是一個相對滯后的決策邏輯。在語言生成推理邏輯時已經拐過去了，推理邏輯才到屏幕上。這個過程能夠被打斷嗎？或者執行過程中能夠溝通嗎？

陳龍：這是個很好的問題。現在 VLA 的框架還沒有發展到特別成熟、特別擬人的階段。現在市面上有些產品可能會顯示思考過程，但顯示這個過程可能已經是幾秒前的，做決策時確實利用到了，不管是做 CoT （思維鏈）還是描述場景來做決策。但這些顯示的信息可能更多是為了展示智能化，對整個自駕體驗沒有特別大影響。

我覺得最終的 VLA，思考過程可能并不需要用這么口語化的文字來描述場景和做推理，因為這些口語化的詞是很冗余的。最終的 VLA 可能更類似人腦的思考方式，我可能不需要說出來也可以去思考，甚至可以利用更簡短的token，甚至是一些隱式的 token 來做思考。這樣會更高效，不需要輸出很長的思維鏈，只需要輸出一些精簡的 token 就可以最終做決策。而且自駕是一個實時要求比較高的系統，不可能接受你sample 這么多 token 最終做出決策。

DeepTech：所以也很難中途打斷，比如像現在告訴司機一樣說“前面右拐”？

陳龍：對，現在 VLA 范式是沒有這個打斷功能的，只能是你說出指令之后再重新執行理解指令語義的過程。

五、機器人對語言的要求更高

DeepTech：在機器人上呢？

穆堯：機器人的 VLA 非常難。大部分機器人 VLA 的訓練都是以一個 well pre-trained （預訓練好的）的 VL model，然后后面接 expert（專家模型）。以目前最著名的 Physical Intelligence提出的 π 系列為例，前面是 Google 提出來的 PaLM （一種大語言模型），是一個 well pre-trained 的視覺語言模型，后面接了一個以 flow matching（流匹配）為原理的 action expert（動作專家）網絡。

本質上機器人對 language 的要求非常高。首先，機器人要做任務拆解。自動駕駛可能就是按照固定的期望路線安全行走、不發生碰撞、到達目的地就可以了。但機器人比如聽到人類的指令“請你幫我做一杯咖啡”，要具體到動作原語 —— 拿出什么東西、放下什么東西、打開什么東西、把什么東西從左邊挪到右邊。機器人需要把人類非常抽象的指令分解成動作原語級別，然后每個原語作為一個 language condition （語言條件）去輸出對應的 action。從這個角度來說，language 對機器人意義非常大。

VLA 大部分是 3B 左右的，比較大的會有 7B、 8B 的，但目前還沒有看到13B 的。所以我覺得它算是一個比較大的“小腦” ，可能還沒到“大腦”的 level。但關于機器人大腦的研究也非常多，以視覺語言為主的大腦研究，大家會做更長程任務的推理。大家對機器人的期待是人類都不用說話，機器人通過視覺觀察能做邏輯推理——你當前是什么狀態，是不是疲憊了、是不是渴了，疲憊困了我給你端來一杯咖啡。所以在機器人這端，language 起到非常重要的作用。

DeepTech：我們聊機器人時往往會聊“大腦”和“本體” 。像宇樹做本體，很多實驗室或公司專注做大腦，只要采購到強的本體就可以了。你剛才提到研究大腦用到的模型參數量都更大，VLA 是不是把大腦和本體都統一到一個模型里面了？

穆堯：VLA 實際上兼顧了一些大腦的能力，比較簡單的邏輯推理是可以做的，比如 pick and place（拾取和放置）這些簡單任務。更大更復雜的推理可能還需要更大的大腦。目前一個比較主流的范式是端云協同，大腦跑在云端，一個稍微小一點的模型跑在端側或邊端，最底層比如人形機器人的運動控制屬于純小腦，也跑在端側。

DeepTech：相當于 VLA 模型部署在本體上，還有一個更大模型的大腦在云端？

穆堯：對，目前這一塊業界解決方案沒有特別好。能在端側芯片部署 VLA 模型的板子也不是很多，大家可能更多是以比如 4090 的服務器來做，屬于邊端。

DeepTech：所以在機器人的控制中，目前還是大腦和本體分離的狀態。

穆堯：13B 以上的大腦一般都是跑在云端的。

六、自動駕駛與機器人能共用一套底座模型嗎？

DeepTech：我們看到很多報道說機器人和自動駕駛能共用一套底座模型。小米也剛開源了打通自動駕駛和具身的基礎模型。這兩者之間有哪些挑戰？技術上有哪些解決思路？

陳龍：肯定有很多挑戰。本質上我們想要解決一個跨本體的問題。人類不管是在家做家務、操作物體，還是在室外開車，是用一個大腦做這些不同行為的。我們認為最終不管是具身、自駕還是其他任務，都要共用一個大腦模型。這樣我們的大腦模型才具有很強的對世界的認知能力，而且統一的模型可能使任務的連續性更好。

我們前段時間發布了一些探索性工作，叫 MiMo Embodied，和小米集團的 MiMo 模型團隊一起做了一些具身大腦的探索。本質上是使用自駕數據和機器人數據，進行融合，通過分階段訓練：第一階段加入很多空間智能數據，讓它學習空間感知和空間推理能力；第二階段放入自駕和具身的專有數據；第三階段通過 CoT 微調；第四階段使用強化學習微調。

通過這四階段訓練，我們發現自駕和機器人的數據是可以融合的。它們共有的能力，也就是空間感知和空間推理能力，是可以互相加強的。一個是室內數據（具身操作），一個是室外數據（自駕場景），如果訓練得好是可以互相增強的。這也是我們前期具身基座模型的探索。

這是比較大的模型，大概 7B。7B 的模型尺寸在端側也不能完全部署，而且需要使用很長的思維鏈方式進行推理，最終可能是一個云端模型。

七、數據問題：自動駕駛 vs 機器人

DeepTech：陳龍聊到數據問題。我感覺自動駕駛數據可能更好獲取，機器人數據更難獲取，是這樣嗎？

穆堯：是的，這也是具身智能行業和自動駕駛產業一個根本性的區別。自動駕駛產業所有跑在路上的車都可以回流作為專家數據，當然要經過大量清洗，但每天可以回流上億條數據。而具身智能把所有開源的閉源的加在一起，可能也沒有 1 億條數據，數據體量差距很大。

所以具身智能學術界和工業界想了各種辦法，包括仿真合成數據，包括用人類更便攜的方案比如 UMI 這樣的手持式設備采集，本質上都是希望以廉價成本 scale up （擴展）數據。但核心困境還是需要人主動去收集，沒有一個自動的飛輪。我們很期待在某一個產線、某一個商業場景下的機器人真正能 24 小時轉起來，這樣就可以產生源源不斷的數據飛輪。自動駕駛天然就有這樣的優勢。但我覺得大概兩年之內，具身也會有一個初步的數據飛輪出來。

DeepTech：數據方面前期調研時，我看到穆堯有“人 - 數字人 - 機器人”一體的架構，也是為了解決數據問題嗎？

穆堯：對，核心就是解決數據問題。人類數據是最本質的，所有機器人都應該向人學習，而且人的數據最廉價、最容易收集——戴個 AI 眼鏡，或者頭頂上綁個相機就可以采集。但人和機器人確實 gap（鴻溝）比較大，所以我們提出 “人 - 數字人 - 機器人” 的三位一體管線，希望搭建好從人的行為到機器人行為的調節，把人的數據利用效率大大提升，并且為仿真合成數據注入人類豐富的行為信息，使行為多樣性有顯著提高。

DeepTech：機器人和自動駕駛數據的 gap，陳龍怎么解決？

陳龍：穆堯說得非常好。自駕因為汽車本身是很好的產品，用戶會去開車，所以采集數據更方便，每天會有很多數據傳上來。而且數據多樣性非常好，全國不同省份都有人在開小米汽車。

具身的問題是現在沒有成熟的產品在用戶側使用，沒有數據飛輪效應。現在大家都是自己建采集場或小規模采集數據，不管數量還是多樣性都非常有限。現在有很多人用合成數據來增強真實數據的不足，但本質上量和多樣性都跟自駕差得很遠。所以為什么 VLA 這么火，其實也是利用了 VLA 的泛化性來解決數據缺少的問題。

當你有了一個很強的 VLA 模型，可能真正需要的數據就不需要那么多了。打個比方，如果你教人一個新任務，不需要很多數據，可能只需要幾條 demonstration （演示），人就可以學習出這個任務具體應該怎么做。所以當VLA 模型做得非常好，它的泛化能力和三種模態的 grounding （接地）做得非常好時，可能并不需要特別多的數據，只需要幾條演示數據就可以把任務做得非常好。數據少的時候，模型側可以做更多優化來彌補。

DeepTech：這兩部分數據的融合，穆堯怎么看？

穆堯：這兩部分數據有 gap。機器人的數據聚焦點主要在操作臺上面，focus 一些非常小的物體。自動駕駛可能關注的更多是路況、行人、紅綠燈這樣的信息。

但兩者的交匯點是 World Model （世界模型），這是一個非常好的交匯面。一個通用的對未來數據的推演，自動駕駛的能力能夠為機器人賦能。因為機器人也需要導航，也需要 mobile manipulation （移動操作）或 locomotion （運動）。自動駕駛的數據能為機器人提供的服務是空間理解和推理——知道這個車往前走一段，視野會變成什么樣，近大遠小這些 common sense（常識）是可以獲取到的，這種基礎知識對機器人學習有很大幫助。

當然二者的 attention 和 focus 各有側重。自動駕駛會跟車道線、紅綠燈、行人、車輛的 feature（特征）更相關；具身可能 focus 在一些具體的起草物體的交互。所以在設計網絡時，要能讓它們共有的知識得到促進作用，并且有效分離開。對應的網絡結構設計也是比較需要的。

八、安全性問題：如何保證 VLA 不出錯？

DeepTech：不管自動駕駛還是機器人和人的交互，都有一個繞不開的話題 —— 安全性。我們都知道語言模型有幻覺問題。在電腦上和大模型交互時，錯了我們人為改正就行了。但在自動駕駛和機器人的交互過程中，穆堯也提到工業上還做不到四個九。在這個安全性極高的場景里，VLA 是如何保證它既有泛化能力，又能解決長尾問題，同時又不會出錯的？

穆堯：我能想到的路徑主要是強化學習。安全分兩塊：一塊是意識層面的安全，不能做出傷害人類的行為、危險的行為；另一塊是行為動作上的安全，也就是 safety （安全性）。

在意識層面上，大模型包括 LLM （大語言模型）的安全對齊主要通過強化學習來做。對于操作的精準度、不能發生碰撞等安全性問題，強化學習也是非常好的手段。我們有一篇 paper 叫 Simple VL-RL，首次在一些標準 benchmark 上達到了兩個 99% 的精度。離工業四個九還稍微遠一點，但已經看到很大的曙光，強化學習確實在這一塊能帶來比較好的性能提升。

DeepTech：陳龍有什么看法？

陳龍：自駕還是不太一樣的。具身你是可以試錯的，不僅能在虛擬環境中做強化，在真實世界中也可以做強化學習。自駕畢竟安全性是第一位的，更多的是從系統層面上做安全性冗余。大模型可能會有幻覺問題，純模型可能都會有不可預測的問題。在自駕安全性要求這么高的環境下，肯定需要很多不同的網絡做兜底。

比如在運行 VLA 的時候，我們可能還有另一套網絡，比如傳統的感知和規控網絡不斷做 safety check（安全檢查），做一些簡單的安全性檢測，比如未來幾秒會不會碰撞、會不會有風險。這類傳統算法穩定性都非常好，當我們檢測到有風險時，可能會用其他模型來做安全操作。

DeepTech：相當于有一個校驗過程或安全兜底的過程？

陳龍：是的，在自駕安全性要求這么高的情況下，肯定需要安全兜底。

九、實時性問題： VLA 的延遲怎么解決？

DeepTech：另一個我比較關心的點是，如果加入語言的決策邏輯，我們都知道像 DeepSeek 在思考過程中是非常慢的。模型在調用過程中還是有時間響應上的問題。這個問題在自動駕駛和機器人上怎么解決？現在能做到多少毫秒的響應？

陳龍：自動駕駛不僅要求安全性高，對實時的要求也非常高。最少要到 10 赫茲的級別，每秒要做十次決策才能做一些比較快的響應，比如緊急情況下的響應。所以我認為 VLA 模型在自駕上可能還需要一些范式上的轉變。

現在有所謂的 “雙系統”，VLA 作為一個慢通路，還有另一個快系統，可能是端到端模型或其他模型。大語言模型和端到端模型可以運行在不同頻率上 —— 大模型可能每秒做一次決策，做比較深度的思考；端到端模型可能運行在十赫茲，做快速響應。但這類方式有個通?。捍竽Ｐ偷木霾吆投說蕉嗽趺唇岷?，是比較困難的問題。

另一端是 VLA 本身，往往我可能每一幀都要做一個 CoT 的思考，或者比較高級的是知道什么時候要做 CoT 思考，但這還是有問題。因為當你需要 CoT 思考時，可能是比較緊急的情況，但這時候做很多 CoT 思考，最終做決策的時間就會很長，可能導致安全性問題。

所以不管是雙系統還是一端式 VLA 都是兩個極端，要不然思考時間過長，要不然雙系統區分得太明顯。肯定之后會有比較中間的方案。因為人類開車時也是在不斷思考，邊開車邊思考，有時候思考的東西可能跟開車沒關系，你可能會走神，但這時候有時候你也可以安全地開車。

最終需要另一種范式轉變，更靈活、更緊密、更解耦的雙系統結合方式，需要在網絡上面做一些探索。

DeepTech：你提到這個我也有感觸。平時開車時如果車比較少，很容易走神，不需要調動特別高的思考能力；但堵車或想超車時，肯定要全神貫注，可能調用了更多的思考能力。

陳龍：對，或者在緊急情況下，你可能來不及思考，可以通過直覺系統來做出決策。

DeepTech：語言響應延時的問題，穆堯怎么解決或有什么看法？

穆堯：對具身來說，更重要的是 action 的延遲。對于語言，你問它一句話，等一會兒也沒什么太大問題，而且完全可以變成并行或異步的部分，當對身體沒有明顯指令時，完全可以云端處理。

對于需要 VLA 都做推理的任務，實時要求還是比較重要的。像陳龍說的十赫茲，機器人也需要十赫茲以上的推理頻率。一個比較好的方案是異步推理，像 Dexterous AI 提出的執行和推理是異步的，沒推完的接著推，但該執行的去執行，構建一個異步的 system （系統）來做。

包括推理也可以并行化，特別是如果有云端加持，完全可以做并行化，根據任務是否有依賴性來完成是否并行的處理。

DeepTech：你剛才提到本體的實時，是目前機器人更大的問題嗎？

穆堯：不是本體的實時，而是 VLA 從輸入圖像到輸出action 開始執行這段時間，是推理時間。因為模型比較大，會比較慢。 3B 的模型差不多將將滿足十幾赫茲的要求。

DeepTech：執行效率會比傳統方式要慢一些嗎？

穆堯：也有很絲滑的，不能一概而論。正常一個 3B 模型4090 上部署，響應頻率差不多 15 赫茲左右。但有很多方法，比如模型輕量化、工程優化，可以使它變得更絲滑。包括插值，可以使真正的本體執行頻率很高，甚至可以達到 200 赫茲。像 Figure AI 就號稱執行頻率是 200 赫茲，但實際上是插值之后的，插值之前其實和大家差不多。

所以有很多工程手段去解決。但更關鍵的是影響動作最終做出來絲不絲滑、哆嗦不哆嗦、成功率高不高的本質上的控制頻率，還是由VLA 看到圖像然后出 action 這段時間來決定的。

十、思考與執行可以并行

DeepTech：我綜合兩位的觀點，能感覺到它的思考鏈是一條鏈路，而執行的過程不一定等思考全部完成了之后再執行。思考鏈可能會非常長或非常連續，而執行過程在某一個階段就可以開始執行了。這樣在我們體感上，延遲就不會像現在用大語言模型看它思考那么長時間才能給出結果。

這就會面臨另一個問題：執行過程中，比如自動駕駛一直在開車，思考一直在進行，一直有 token 產出；機器人執行過程中也是這樣。Transformer 都會面臨遺忘的問題，過去不管多長的文本模型都會有遺忘。遺忘的問題對自動駕駛和機器人會是問題嗎，包括訓練時遺忘與執行時遺忘。

陳龍：訓練時更多的是通用能力有一些災難性遺忘的行為。現在 VLA 如果在實驗室做小規模 finetune（微調），可能并沒有很大規模的預訓練能力，做完 VLA 訓練后通用能力就會有一定缺失，遺忘了很多通用知識，模型就變成一個專有的自駕或具身模型了，通用能力幾乎就沒有了。

舉個簡單例子，如果你做很小規模的微調，問它一些通用知識比如“一加一等于幾” ，它會回答一些無關的東西，比如“前面有一輛車” 。所以訓練時要解決遺忘問題，更多的是要把很多數據加入預訓練階段。預訓練時不僅學習通用知識，也學習到自動駕駛或機器人的知識。

推理時更多的是 context window（上下文窗口）的問題。當延時要求非常高時，context（上下文）不能堆得特別長，肯定要做一些選擇。但現在有很多大模型技巧，比如 linear attention（線性注意力機制），可以把 context window 做得非常長，但延時也不會變得特別高。還有可以做 context 的壓縮和總結。

你不需要把之前所有信息都加入 context，只需要把關鍵信息加入。比如在路口選擇了往哪邊走，這些關鍵信息可以加入歷史 context ；而一些無關緊要的信息比如現在執行開了多少米，這些信息其實不是特別關鍵，可以忽略掉。所以最終 VLA 的形態肯定類似人，更加智能，可以記憶比較關鍵的信息，無關緊要的信息不需要做歷史記憶。

DeepTech：在機器人領域呢？

穆堯：在機器人領域一般有兩大類方法。一類是用 neural （神經）的方式，就是剛才陳龍講的壓縮方式，embed （嵌入）出來一些關于 memory （記憶）的 token，然后當前的觀測視覺和語言的 token 去 query （查詢）這個 memory bank （記憶庫）里面的 memory token （記憶令牌），query 出來一些 historical token （歷史令牌）作為 VLA 的 prompt （提示詞）。

另一類是顯性的總結，有一個額外的 agent system 。舉個例子，機器人里很簡單的一個任務但非常需要 memory，就是“click the bell（按鈴）” ，在桌子上需要按響一個鈴。當我的機械臂懸空到這個鈴之間的位置時，我只靠單幀的圖像根本不知道我是已經按完這個鈴了，還是還沒有按它要去按它，還是已經按完要回退。所以這里面就需要 memory。

一種方式是 embedding（嵌入）的方式；另一種是顯式summary（總結），用 VL 的 language 去 summary 一下，比如“我當前已經按過它了，現在是回退狀態” 。相當于做了一個 CoT，隨著CoT 把一些重要的信息以文字形式總結下來，作為后面的輸入。一種是隱式的，一種是顯式的，都是 prompt 的形式。

DeepTech：如果是更多的記憶，機器人在執行過程中也不需要記憶非常多的信息。

穆堯：其實執行只跟當前有關系，當前任務幾個工具。它做過的其他任務，知識是藏在權重里面的，那是學習訓練的時候。

DeepTech：也就是說執行當前任務時，并不需要關注之前做了什么任務。

十一、世界模型與空間智能：爭論還是融合？

DeepTech：我們聊了很多技術上的問題。我在做前期調研時也看到很多開放性的探討，比如最近比較火的世界模型、空間智能和大語言模型的爭論，好幾個大佬都在聊空間智能的問題。兩位怎么看？

穆堯：我覺得空間智能和語言好像沒有什么太多可爭論的，它們兩個都非常重要。對機器人來說，因為具身智能本身就是計算機視覺、自然語言處理、機器人本體、控制理論幾大交叉學科于一體的方向。對于具身智能機器人，空間認知感知能力和語言模型的推理能力都是非常重要的兩個部分。

對于空間來講，World Model 就像你剛剛提到的，是非常好的方式來做具身智能的預訓練。為什么呢？因為視頻或圖像是最豐富的一種形式，人類世界當中有無數人做各種任務的視頻，包括自動駕駛的任務 —— 往前走、往后退，形成對世界的三維空間認知，知道走近之后的視野會變成什么樣、走遠之后的視野會變成什么樣。

而且 World Model 天然可以把機器人和自動駕駛的 world model 放在一塊訓，完全沒有問題。數據格式是統一的，不像 VLA 的話，機器人的 pose（姿態）、action 信息和汽車的方向盤轉角、油門開度是完全不一樣的。

所以 World Model 是一種更通用的對于空間推理的手段。特別是預測未來幀也好、預測未來的隱藏狀態也好，它都是一種通用的、面向全模態所有本體的空間推理預訓練的非常有效范式，真正能把所有數據源有效調動起來去訓練一個 foundation （基座）的手段。這一塊我相信目前學術界和工業界給予了非常大關注，在大家努力下也會有很多 promising （有前景的）的成果出來。

DeepTech：所以空間智能其實也拋棄不了語言的環節。

穆堯：對，語言也很重要。自動駕駛里向左轉、向右轉是完全不一樣的。

陳龍：我覺得 World Model 和 VLA 解決的是不同的問題。像穆堯講的，World Model 是通過對下一幀圖像或下一個狀態的預測，學習到這個世界上的一些本質，比如這個車未來應該如何運動，通過學習預測的能力學習到一些世界本質上的物理規律。

VLA 更多的是學習到一些 high level （高層級）的人類規則，通過互聯網上的文字訓練學習到人類對這個世界的定義，包括人類的價值觀，以及很強的通過文字的推理能力。

World Model 這個 low level（低層級）的預測能力和 VLA 這個 high level 文字推理的能力，本質不沖突，是可以互相結合的。現在也有很多研究在把這兩個不同的能力給它結合起來，形成一個更好的模型，既能預測未來的圖像，也有視覺語言的能力用語言做推理。我覺得最終肯定要把這兩種能力融合。

DeepTech：目前討論比較熱烈，我感覺更多是語言模型因為只聚焦于語言，很難把世界模型加入進來。加入實踐模型之后，這兩個模型最終會路線收斂，有相互交叉、相互補齊。

十二、如何看待對 VLA 技術的質疑？

DeepTech：另外還有一個相對尖銳的問題。前段時間在世界機器人大會上，王興興比較質疑 VLA 技術。你們怎么看這個問題？

穆堯：我覺得觀點的不同主要是因為從不同的角度。從我們做研究的角度，VLA看到了很大的機會，所以需要投入。但我相信所有 VLA 的研究者都會坦誠承認，目前達不到工業上四個九的要求。但它是不是promising 的？我覺得是 promising 的。

王總的觀點可能是因為他們做本體，要求非常嚴格的安全性、準確率、效率。宇樹的機器人踹多少腳都不倒，可以做非常復雜的運動。我覺得本身技術就是我們在不同路線上去做，會有一個交匯點。VLA 很多能力也是受限于本體，比如有些機械臂和靈巧手它就很笨拙，效率跟人是沒辦法比的。

我覺得也很好，大家努力的方向有從不斷完善本體的易用度、可靠性、成本的，我們這邊做 VLA 對大多數公司來說屬于一個預研的項目。當兩方技術逐漸交疊，整個具身智能是一個軟硬件協同發展的系統。當軟硬件真正發生碰撞在一起的時候，大家的看法都會改變，也都會有新的共識。

像現在來看有一些比較好的 demo ，像字節發出來的 VLA 能夠去穿鞋帶。這個在我當時讀博士的時候，實驗室還討論過這個任務，當時我們認為誰要是能做一個這個，可以說是一個很驚動的話題。但現在已經被實現了，技術發展確實很快。

2024 年的時候，基本上人形機器人都是跌跌撞撞的，上個樓都費勁。現在其實已經起飛了，你看它做很多復雜的動作都可以做。VLA 這一塊，像疊衣服現在甚至都說是具身公司的一個“MNIST（手寫數字數據集）”，就相當于圖像識別里面最簡單的數字，哪家都能疊衣服了。但 2024 年是不可想象的，那時候抓蘋果都費勁。整整只過了一年，就是天翻地覆的變化。我覺得很快隨著軟硬件的交匯，我們會有一些更新的共識出來。

陳龍：當一個技術剛興起的時候，會有一個類似于新興技術的曲線。剛開始大家把熱度炒得特別高，會有很多demo出現。后來發現可能對它期待太高，沒有實現人類的期待，這個技術又會跌到谷底。慢慢經過幾年發展，才最終達到很好用的狀態。

我是一個比較長期主義的人。現在 VLA 可能確實有很多問題，不管是效率還是幻覺問題，雖然它泛化性很好，但最終的成功率可能并沒有達到人類的期待。但我覺得不應該因為它現在的問題來全盤否定這個技術，更多的是看到這個技術的潛力，包括它未來的發展方向。

我覺得 VLA 是現階段最能實現物理世界 AGI 的一個框架。語言也是人類這么多年智慧結晶的體現，互聯網上這么多數據融合了人類的很多智慧。最終語言肯定是智能的一個很大的模態，是必不可少的。VLA 這個架構可能也是最終通往 AGI 必不可少的一個框架。雖然它的網絡結構比如 transformer 可能并不是最終理想的架構，但語言這個模態我覺得肯定是一個終局。

不管是物理世界的 AGI 還是 AGI，我覺得都需要語言這個能力。所以不能因為 VLA 現在有很多問題來否定這項技術。而且 VLA 還有世界模型可能太容易理解了，現在有很多人利用自己對它的理解來做一些推演，來否定這項技術。還是應該真正務實一點，把 VLA 以及世界模型這些技術的底層技術做好，最終才能共同促進這些行業的發展。

DeepTech：因為這個技術原理在大眾看來相對簡單，但技術實現上是非常難的。或者說 transformer 的架構只要研究一段時間都能理解，但具體實現就很難。 VLA 也是一樣的，技術原理和邏輯相對簡單，但每個人對這個技術的理解不一樣，在發展過程中面臨的問題的解決方案不一樣，跨越某項技術鴻溝的難度和時間也不一樣。隨著技術發展，這些問題都能一步一步慢慢解決。

【十二個問題解剖VLA，深度對話小米陳龍、上交穆堯】排版：olivia

推薦閱讀

上一篇：CPU市場：AMD進，英特爾退

下一篇：AI健康助手能取代搜索引擎嗎？