
文章圖片

文章圖片

VLA(Visual-Language-Action)大模型到底能跑多快?在這篇 RT-VLA(Real-time VLA)論文中 , 來自 Dexmal 原力靈機(由范浩強等人聯合創立的具身智能公司)的研究者公布了一個反直覺的發現:它可以非常快!
具體而言 , 對于常用的 Pi0 級別的模型(30 億參數) , 在單張消費級顯卡 RTX 4090 上最快可以跑到 30fps 。 這和大家對于 VLA 模型動輒要幾十甚至上百毫秒的刻板印象形成鮮明對比 。
為實現這點 , 研究者深入分析 Pi0 的模型結構 , 通過一系列優化把用時從開始的 100+ ms 進行數倍縮減(針對雙視角 , 甚至已經達到 27ms) , 顯著強于 openpi 里采用的基于 jax 的自動優化的結果 。
此外 , 研究者基于現有結果探討了未來的“實時”運行的 VLA 結構 , 設計出一個有潛力最高實現 480Hz 閉環控制的算法框架 。 目前 , 優化后的代碼已在 GitHub 開源 , 全部實現均打包為一個只依賴于 torch 和 triton 的單一文件 , 大家可在自己的項目里 “開箱即用” 。 這是 Dexmal 原力靈機繼開源一站式 VLA 工具箱 Dexbotic 之后的又一開源代碼工作 。
論文名稱:Running VLAs at Real-time Speed 論文鏈接:https://arxiv.org/abs/2510.26742 GitHub:https://github.com/Dexmal/realtime-vla
解決什么痛點?
【單張4090跑到30fps,范浩強團隊讓VLA實時跑起來了】現在機器人 VLA 大模型動輒幾十億參數 , 雖然有不錯的泛化能力 , 但是延遲問題總是繞不過 。 即使是在高端推理顯卡上 , 高達百毫秒級別的推理時間讓機器人的實時控制困難重重 , 就像一個人看見東西后要愣一下才做出動作 。
如果我們能夠把模型運行到和相機一樣快的頻率(25fps、30fps 甚至 50fps) , 那么就可以在完全不丟幀的情況下處理視覺信息 , 讓 VLA 模型的實時運行成為可能 。
如何實現?
Pi0 模型計算流程圖示 , 它主要包括 1 個視覺編碼器 , 1 個編碼器和 1 個解碼器;所有這些又可進一步分解為一系列的矩陣乘法和標量運算 。
對于 Transformer 這類模型 , 當它進行單次推理(比如只處理一個問題或一張圖片)時 , 其內部計算過程實際上是由一長串零碎的 “矩陣計算小任務” 組成;而像 Pi0 這種采用 “流匹配” 技術的模型 , 需要反復迭代十次才能得出最終結果 , 每一次迭代本身就包含幾十層計算 。 這樣算下來 , 整個推理過程涉及數百層、上千個操作 。 任務如此零碎 , 讓計算優化變得異常困難 。
本文研究者通過深入分析模型推理過程中的計算問題 , 融合和并行優化每一個計算步驟 , 清除了推理方面的大部分障礙 , 再加上其他方面的優化 , 最終把整個 VLA 模型跑進了所需的時間之內 。
這就像給了 VLA 大模型一份 “高性能 AI 大腦調校指南” ;它通過一系列深入的底層優化 , 把笨重的 AI 大模型變成能跑實時任務的 “閃電俠” , 并在此基礎上 , 構想出一個能同時具備條件反射、視覺反饋和智能思考的下一代機器人控制系統 。
效果展示
上圖所示的任務是抓取一支自由下落的筆 。這個任務對反應時間的要求極為苛刻 。 機器人觀察到筆開始下落后 , 必須在極短的時間內做出反應并在正確的時間啟動抓取動作 , 快一點或者慢一點都會導致任務失敗 。
最終呈現的效果是 從 “看到筆” 到 “執行抓取” 的端到端總反應時間被縮短到 200 毫秒以內 , 這大概對應到一個 30 cm 左右的最短下落距離 。 而人類在這個任務上的一般表現也不過如此 。
下一步規劃
基于上述取得的成果 , 研究者設計了一套完整的、圍繞 GPU 打造的機器人控制框架 , 它能驅動 VLA 大模型 , 像 “直播” 一樣對機器人進行流式的實時控制 , 讓機器人擁有 3 種不同速度的 “反應神經”:
超快反應(480Hz):處理來自力傳感器等高速信號 。 就像你的手一碰到燙的東西會瞬間縮回 , 不需要經過大腦思考 。 這部分由模型的 “解碼器” 負責 , 能每秒生成 480 次控制指令 。 視覺反應(30Hz):處理來自攝像頭的畫面 。 就像你看著球飛過來 , 用眼睛跟蹤并判斷落點 。 這部分由模型的 “編碼器” 負責 。 智能思考(1Hz):處理語言理解和任務規劃 。 就像你在執行任務時 , 還能分心聽一下隊友的指令或者自己琢磨一下策略 。 這部分速度最慢 , 但賦予了機器人更高的智能 。
通過分析與實驗 , 這個框架下一步規劃最高能以 480Hz 的頻率生成機器人控制信號;這個速度 , 已經摸到了實現基于力反饋進行控制的門檻 。
未來展望
機器人有沒有可能達到 “又聰明又快” 的效果?這篇文章只是一個起點 。 針對未來不斷增加中的邊緣計算算力 , 研究者展望了更進一步的可能性:
“眼睛” 最快能有多快?從 30fps 到 60fps , 甚至 120fps , 是否有更多的任務變得可行? “大腦” 最大能有多大?在實時性約束下 , 我們是否可以從 3B 模型 , 走向 7B , 13B 模型 , 甚至更大模型? “反應” 速度的極限在哪里?在 VLA 框架下 , 我們是否還可以建立亞毫秒、甚至微秒級的反饋回路?
從這篇文章出發 , 一個能夠參與實時控制 VLA 的世界的大門正在被打開 。
推薦閱讀
- 玩家動手改裝RTX 4090筆記本:性能暴增20%逼近RTX 5090!
- 動手改裝RTX 4090筆記本:性能暴增20%逼近RTX 5090!
- 李飛飛全新「世界模型」問世,單張H100實時生成3D永恒世界
- 單張顯卡實時生成3D世界,李飛飛World Labs推出全新世界模型RTFM
- 一個演員的 AI 時代反內卷指南:先允許自己跑到哪兒算哪兒
- 疑似支棱起來了?三星2nm芯片Exynos 2600主頻跑到3.8GHz
- 買了四塊RTX 4090 竟有三塊是假的!好一個貍貓換太子
- 英偉達 RTX 5090 震撼發布,RTX 4090 會降價嗎?
- AMD發布史上最強APU!游戲拳打RTX 4060、AI腳踢RTX 4090
- NVIDIA RTX 5090炸裂登場!全方位碾壓RTX 4090!
