告別多步去噪！清華團隊推出MVP，實現機器人動作單步極速生成

2026-04-17 ai 人工智能蔡昉

文章圖片

文章圖片

生成式策略（如 Diffusion Policy 和 Flow Matching）在強化學習中展現了強大的多模態分布擬合能力，但其多步迭代采樣帶來的高延遲一直是實時控制的痛點。

清華大學智能駕駛課題組 iDLab ，加州大學伯克利分校人工智能研究院 BAIR 在 ICLR 2026 (Oral Top 1%) 聯合發表的最新研究成果《Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation》：突破生成式強化學習的效率與質量瓶頸，實現最快最好的單步動作生成。該研究工作由清華大學博士生占國建和陶樂天在李升波教授指導下完成。

論文標題：Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation 論文鏈接：https://openreview.net/forum?id=mIeKe74W43
【告別多步去噪！清華團隊推出MVP，實現機器人動作單步極速生成】本文最新研究成果 MVP (Mean Velocity Policy)：提出了一種建模均值速度?。 ∕ean Velocity Field）的新型生成式策略。該方法通過引入瞬時速度約束（IVC）作為關鍵的邊界條件，解決了均值流學習中的解不唯一性問題，并且設計了復合生成與選擇機制，確保在線強化學習過程中策略 “步步變強” 。 MVP 實現了極致的單步生成 —— 從噪聲直接映射到動作，徹底消除了迭代計算開銷。在 Robomimic 和 OGBench 等高難度具身智能基準測試中， MVP 不僅取得了 SOTA 的成功率，更在訓練和推理速度上實現了數量級的提升。

背景：生成式強化學習的效率與質量瓶頸

在具身智能（Embodied AI）和機器人控制領域，面對復雜的任務，最優動作往往呈現多模態分布（Multimodal Distribution）。傳統的單高斯策略難以應對，而基于擴散模型（Diffusion）或流匹配（Flow Matching）的生成式策略雖然表達能力強，但通常依賴幾十甚至上百步的迭代去噪，導致推理延遲極高，難以滿足機器人高頻控制的實時性要求。為了提高推理速度，字節跳動、加州伯克利等團隊曾嘗試通過大步長離散化或單步蒸餾等技術進行優化，但往往不可避免地以犧牲生成質量為代價，陷入了速度與精度難以兩全的瓶頸。

核心問題出現了：我們能否在保持流模型強大表達能力的同時，直接實現一步到位的動作生成？

MVP 給出的答案是肯定的。相比于傳統方法學習 “瞬時速度” 逐步生成動作， MVP 學習的是 “均值速度” ，這使得它能夠直接跨越時間步，一步生成目標動作。

核心貢獻：MVP—— 兼具生成式策略的 “高表達能力” 與單步生成的 “高時間效率” 。

技術一：瞬時速度約束錨定，精確極速的均值流策略

傳統的 Flow Matching 往往受限于 “步步為營”：它學習的是某一時刻的瞬時速度，導致推理時必須像歐拉積分那樣多步逼近。而 MVP 另辟蹊徑，直接建模時間區間內的均值速度。這種設計允許網絡直接學習如何 “跨越時間” ，在推理階段實現從初始噪聲到目標動作的單步跳躍，真正做到了 “一步即終點” 。

然而，單純學習均值速度存在一個致命的理論困局：由于缺乏明確的邊界條件，描述均值速度的常微分方程（ODE）存在無窮多組解。這會導致神經網絡在訓練時陷入不確定性，產生嚴重的擬合偏差。

為了破局，該研究引入了瞬時速度約束（Instantaneous Velocity Constraint IVC）作為 “定海神針”：

1. 物理直覺：在時間間隔趨于零的極限下，均值速度必須收斂于瞬時速度。
2. 理論護航：IVC 為 ODE 顯式提供了唯一的邊界條件。論文中的 Theorem 3 從理論上證明了，最小化 IVC Loss 可以強制積分常數誤差歸零。

通過 IVC 的錨定， MVP 在省去繁瑣迭代步驟的同時，極大地提升了策略擬合的精度與穩定性，實現了精度與速度的雙重突破。

技術二：復合生成與選擇，確保策略 “步步變強”

強化學習沒有現成的專家動作供生成式模型進行匹配，為了實現生成式策略提升， MVP 采用了 Generate-and-Select（復合生成與選擇）機制，以自舉方式進行動作優選與匹配，逐步收斂至多模態最優策略。

1. 高效生成 (Generate)：利用 GPU 并行能力快速生成 N 個候選動作。
2. 智能優選 (Select)：利用 Q 函數對候選動作精確評分，鎖定最優執行方案。

理論保證：論文中的 Theorem 1 證明了，該機制能確保策略性能的單調提升。它將增益拆解為 Best-Select 優勢（嚴格非負）與擬合誤差。只要通過 IVC 約束將誤差控制在極低水平， Generate-and-Select 就能確保策略在迭代中穩定變強。這一理論貢獻為 MVP 的收斂性和最優性提供了嚴格的數學保障。

實驗結果：刷新 SOTA ，征服具身機器人靈巧操作挑戰

研究團隊在 Robomimic 和 OGBench 兩大主流機器人操作基準上進行了廣泛測試，涵蓋了從基礎的 Lift、Can 到極具挑戰性的 Cube-Double/Triple 等 9 個稀疏獎勵任務。

1. MVP 在絕大多數任務上都取得了 SOTA 性能。特別是在長視距、高難度的方塊錯位重排任務中， MVP（粉色）表現出更快的在線收斂速度和更高的最終性能。

2. 得益于單步生成的特性， MVP 在計算效率上展現了壓倒性優勢。

訓練速度：相比于需要多步去噪計算的 QC ， FQL 和 BFN ，單步生成動作的 MVP 的在線訓練吞吐量（iter/s）提升超過 50% 。推理延遲：在統一的無編譯加速的 CPU 環境下， MVP 的單步推理耗時僅為幾毫秒，而同樣而同樣基于生成式流模型的 BFN 和 QC 等方法則需百毫秒量級。這使得 MVP 能夠輕松部署在算力受限的具身機器人本體上。
總結與展望

在本研究中，團隊直擊了生成式強化學習在交互訓練與實時控制場景下 “采樣速度慢、推理延遲高” 的痛點，提出了 MVP（Mean Velocity Policy）框架，通過學習均值速度場繞過了復雜的時序迭代采樣過程，實現了無需蒸餾的單步極速生成。為了彌補均值流學習在邊界條件上的理論缺失，研究設計了瞬時速度約束（IVC），從數學底層保證了策略函數的高精度擬合。實驗表明， MVP 在保持 SOTA 成功率的同時，不僅顯著縮短了訓練周期，更將推理延遲壓低至毫秒量級。這種 “極速生成” 與 “高精控制” 的深度融合，為未來追求極致響應速度的具身智能系統指明了新的范式。

推薦閱讀

上一篇：好玩的“縫合怪”！飛貓M6隨身WiFi體驗：出門帶它一個就夠了

下一篇：2000元價位亂殺？紅米驍龍8至尊版背后，不止是真香