每秒生成超30幀視頻，支持實時交互，自回歸視頻生成新框架刷新生成效率

2026-04-27 人工智能成都智能機器人黑科技

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

在A100上用310M模型，實現每秒超30幀自回歸視頻生成，同時畫面還保持高質量！
視頻生成現在都快這個程度了？
最近，來自微軟研究院的團隊與北大聯合發布新框架——Next-Frame Diffusion (NFD) 。
通過實現幀內并行采樣，幀間自回歸的方式， NFD讓視頻生成在保持較高生成質量的同時，生成效率大幅提升。
或許不久之后的游戲，就是玩家直接跟模型交互打游戲了，無需通過傳統的游戲引擎。
比如在《我的世界》中，下面每個視頻在NVIDIA A100 GPU上生成只需約0.48秒。
玩家在黑暗的走廊中不斷前進：
玩家在攻擊小動物后轉動視角：
玩家跳躍后放置木塊：
玩家跳上草地：
玩家不停地放置石塊：
值得一提的是，前段時間在X上火了的一款基于Minecraft的交互式自回歸世界模型——MineWorld ，也是這個微軟研究院的團隊做的。
它能夠以每秒4-7幀的速度和模型進行交互。
如今， NFD讓生成速度又快了幾倍。
那么具體是如何做到的？

NFD長啥樣？當前多數的自回歸視頻生成模型如VideoPoet采用類似于Language Model的方式，將視頻編碼成離散視頻Token ，并逐個生成Token 。
然而這種方式在生成的時候既沒法利用GPU并行計算的能力，也破壞了幀內的相關性。
因此，研究人員采用了Next-Frame Diffusion(NFD)的方式來建模視頻，其使用幀內雙向注意力，幀間因果注意力機制的方式來建模視頻，并采用擴散模型多步迭代生成連續Token 。
這樣做的好處是可以在生成的時候逐幀采樣來流式生成視頻，并在幀內并行生成以提高推理效率。
為進一步提高生成效率，研究人員進一步通過以下技術來減少推理時的總采樣次數：
將一致性蒸餾擴展到視頻領域，并專門針對視頻模型優化，從而少量采樣步驟，實現高效推理；提出了投機采樣方法。由于相鄰幀常常動作輸入相同，模型使用當前動作輸入生成多個后續幀，若輸入動作發生變化，則丟棄投機生成的幀，以充分利用并行計算能力。
引入塊狀因果注意力機制的Transformer具體來說， NFD的架構包含一個將原始視覺信號轉換為Token的Tokenizer ，以及生成這些Token的基于擴散的Transformer模型。在Transformer內，研究人員使用了塊狀因果注意力機制，結合幀內的雙向注意力和幀間的因果依賴，高效建模時空依賴性。
相比計算密集的3D全注意力，該方法將整體成本減少50% ，支持高效地并行預測下一幀所有Token 。

基于Flow Matching的訓練和推理過程研究人員基于Flow Matching構建訓練流程，追求簡單和穩定性。對于視頻幀xi ，分配一個獨立時間步t ，并通過線性插值生成加噪版本：
訓練通過最小化Flow Matching損失來進行：
在采樣階段，研究人員采用DPM-Solver++ ，通過以下公式對同一幀的所有Token去噪：

一致性蒸餾雖然NFD在推理階段支持并行Token采樣，受限于擴散模型的多步采樣，實現實時視頻生成仍具挑戰性。
因此，研究人員首先將一致性蒸餾擴展到視頻領域，通過數學變換將流匹配模型轉換TrigFlow模型，從而簡化了連續時間一致性模型的訓練，并針對視頻數據的特性進行調整。
具體的訓練目標為：

投機采樣與此同時，研究人員觀察到，用戶輸入的游戲動作在很多時候是可預測的。
例如，用戶執行前進命令的時候往往會持續多幀。
鑒于這個發現，研究人員進一步提出了一種投機采樣技術，通過并行預測多個未來幀加速推理。
在投機生成后，將預測動作與實際后續動作輸入進行比較。一旦檢測到預測與真實動作不一致，丟棄之后的所有投機幀，并從最后驗證的幀重新開始生成。

效果如何？下表從視頻內容的生成效率和視覺質量兩個角度對比了本工作的方法和當前最先進方法。
其中， NFD指使用Flow Matching目標訓練并通過DPM-Solver++進行18次采樣的模型；NFD+為加速版本，通過一致性蒸餾實現4步采樣，并結合了投機采樣技術。
NFD和NFD+方法與先前模型的生成效率、質量的對比：
結果表明， NFD在多項指標上優于先前的自回歸模型。
具體而言， NFD（310M）在FVD上達到212 ， PSNR為16.46 ，優于MineWorld（1.2B）的FVD 227和PSNR 15.69 ，同時運行速度達6.15FPS ，快超過2倍。
NFD+通過高效采樣策略顯著加速：130M和310M模型分別達到42.46FPS和31.14FPS ，遠超所有基線。
【每秒生成超30幀視頻，支持實時交互，自回歸視頻生成新框架刷新生成效率】即使速度提升， NFD+仍保持競爭力的視覺質量， 310M模型在PSNR上達到16.83 ， FVD為227 ，與更大的MineWorld模型表現相當。
最后總結來說，團隊認為當下視頻生成模型在各個領域百花齊放，有誕生像Sora、可靈、Veo3這樣的產品，也有Genie、MineWorld這樣的游戲世界模擬器，為未來世界模型的實現提供了巨大意義。隨著視頻模型廣泛的應用，更靈活、更高效的生成范式變得越來越重要。
論文地址：
https://arxiv.org/pdf/2506.01380
項目主頁：
https://nextframed.github.io/

推薦閱讀

上一篇：德國山寨中國？Rollei無反鏡頭85mm F1.8或為七工匠換殼版

下一篇：LeCun世界模型出2代了，62小時搞定機器人訓練，開啟物理推理新時代