單張4090跑到30fps，范浩強團隊讓VLA實時跑起來了_bluebird|芯片|GPU|人工智能

文章圖片

文章圖片

VLA（Visual-Language-Action）大模型到底能跑多快？在這篇 RT-VLA（Real-time VLA）論文中，來自 Dexmal 原力靈機（由范浩強等人聯合創立的具身智能公司）的研究者公布了一個反直覺的發現：它可以非常快！

具體而言，對于常用的 Pi0 級別的模型（30 億參數），在單張消費級顯卡 RTX 4090 上最快可以跑到 30fps 。這和大家對于 VLA 模型動輒要幾十甚至上百毫秒的刻板印象形成鮮明對比。

為實現這點，研究者深入分析 Pi0 的模型結構，通過一系列優化把用時從開始的 100+ ms 進行數倍縮減（針對雙視角，甚至已經達到 27ms），顯著強于 openpi 里采用的基于 jax 的自動優化的結果。

此外，研究者基于現有結果探討了未來的“實時”運行的 VLA 結構，設計出一個有潛力最高實現 480Hz 閉環控制的算法框架。目前，優化后的代碼已在 GitHub 開源，全部實現均打包為一個只依賴于 torch 和 triton 的單一文件，大家可在自己的項目里 “開箱即用” 。這是 Dexmal 原力靈機繼開源一站式 VLA 工具箱 Dexbotic 之后的又一開源代碼工作。

論文名稱：Running VLAs at Real-time Speed 論文鏈接：https://arxiv.org/abs/2510.26742 GitHub：https://github.com/Dexmal/realtime-vla
解決什么痛點？

【單張4090跑到30fps，范浩強團隊讓VLA實時跑起來了】現在機器人 VLA 大模型動輒幾十億參數，雖然有不錯的泛化能力，但是延遲問題總是繞不過。即使是在高端推理顯卡上，高達百毫秒級別的推理時間讓機器人的實時控制困難重重，就像一個人看見東西后要愣一下才做出動作。

如果我們能夠把模型運行到和相機一樣快的頻率（25fps、30fps 甚至 50fps），那么就可以在完全不丟幀的情況下處理視覺信息，讓 VLA 模型的實時運行成為可能。

如何實現？

Pi0 模型計算流程圖示，它主要包括 1 個視覺編碼器， 1 個編碼器和 1 個解碼器；所有這些又可進一步分解為一系列的矩陣乘法和標量運算。

對于 Transformer 這類模型，當它進行單次推理（比如只處理一個問題或一張圖片）時，其內部計算過程實際上是由一長串零碎的 “矩陣計算小任務” 組成；而像 Pi0 這種采用 “流匹配” 技術的模型，需要反復迭代十次才能得出最終結果，每一次迭代本身就包含幾十層計算。這樣算下來，整個推理過程涉及數百層、上千個操作。任務如此零碎，讓計算優化變得異常困難。

本文研究者通過深入分析模型推理過程中的計算問題，融合和并行優化每一個計算步驟，清除了推理方面的大部分障礙，再加上其他方面的優化，最終把整個 VLA 模型跑進了所需的時間之內。

這就像給了 VLA 大模型一份 “高性能 AI 大腦調校指南” ；它通過一系列深入的底層優化，把笨重的 AI 大模型變成能跑實時任務的 “閃電俠” ，并在此基礎上，構想出一個能同時具備條件反射、視覺反饋和智能思考的下一代機器人控制系統。

效果展示

上圖所示的任務是抓取一支自由下落的筆。這個任務對反應時間的要求極為苛刻。機器人觀察到筆開始下落后，必須在極短的時間內做出反應并在正確的時間啟動抓取動作，快一點或者慢一點都會導致任務失敗。

最終呈現的效果是從 “看到筆” 到 “執行抓取” 的端到端總反應時間被縮短到 200 毫秒以內，這大概對應到一個 30 cm 左右的最短下落距離。而人類在這個任務上的一般表現也不過如此。

下一步規劃

基于上述取得的成果，研究者設計了一套完整的、圍繞 GPU 打造的機器人控制框架，它能驅動 VLA 大模型，像 “直播” 一樣對機器人進行流式的實時控制，讓機器人擁有 3 種不同速度的 “反應神經”：

超快反應（480Hz）：處理來自力傳感器等高速信號。就像你的手一碰到燙的東西會瞬間縮回，不需要經過大腦思考。這部分由模型的 “解碼器” 負責，能每秒生成 480 次控制指令。視覺反應（30Hz）：處理來自攝像頭的畫面。就像你看著球飛過來，用眼睛跟蹤并判斷落點。這部分由模型的 “編碼器” 負責。智能思考（1Hz）：處理語言理解和任務規劃。就像你在執行任務時，還能分心聽一下隊友的指令或者自己琢磨一下策略。這部分速度最慢，但賦予了機器人更高的智能。
通過分析與實驗，這個框架下一步規劃最高能以 480Hz 的頻率生成機器人控制信號；這個速度，已經摸到了實現基于力反饋進行控制的門檻。

未來展望

機器人有沒有可能達到 “又聰明又快” 的效果？這篇文章只是一個起點。針對未來不斷增加中的邊緣計算算力，研究者展望了更進一步的可能性：

“眼睛” 最快能有多快？從 30fps 到 60fps ，甚至 120fps ，是否有更多的任務變得可行？ “大腦” 最大能有多大？在實時性約束下，我們是否可以從 3B 模型，走向 7B ， 13B 模型，甚至更大模型？ “反應” 速度的極限在哪里？在 VLA 框架下，我們是否還可以建立亞毫秒、甚至微秒級的反饋回路？
從這篇文章出發，一個能夠參與實時控制 VLA 的世界的大門正在被打開。

單張4090跑到30fps，范浩強團隊讓VLA實時跑起來了

推薦閱讀

支付寶APP添加銀行卡備注信息的方法

2023專科專業推薦男生什么專業畢業工資高待遇好

23層的腰線層和設備層是幾層

酷狗音樂怎么調倍速加速播放歌曲方法介紹

畫眉必備工具有哪些畫眉的工具有哪些

規劃局是干什么的

拼多多上的影視會員是正規的嗎拼多多上的影視會員可以買嗎安全嗎

天蠶絲與真絲哪個面料好

星際戰甲礦難錘是什么

電蚊香液使用時可以開窗嗎

高鐵d9736，動車d3012次9車6d什么意思

車輛保險怎么買劃算第二年車險怎么買,新車第二年投保

女排精神高三作文

8英寸晶圓是什么意思，8英寸晶圓什么意思？

335is，His favorite class is English翻譯

家居|吹風價4萬+？黃江要高攀不起了！