AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

文章圖片

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

智東西
作者 | 李水青
編輯 | 云鵬
智東西8月12日報道 , 今日 , 昆侖萬維開源自研世界模型Matrix系列中Matrix-Game交互世界模型的升級版本——Matrix-Game 2.0 。
上周 , 谷歌DeepMind推出交互式世界模型Genie 3 , 實現了交互式實時長序列生成 , 引起產業關注 。 然而Genie 3并沒有開源 。 昆侖萬維Matrix-Game 2.0是業內首個在通用場景上 , 實現實時長序列交互式生成的世界模型開源方案 。 這意味著具身智能、游戲、影視及元宇宙多個領域的開發者將獲得一個高開放可用的數據合成、模型訓練及場景搭建的生產力工具 。
Matrix-Game 2.0有以下三大特點:
1、實時蒸餾 。 采用 “少步擴散” 技術 , 實現25FPS(幀/秒)的流式視頻合成 , 能以超高速在復雜環境中生成分鐘級、高保真的視頻 。
2、精準動作注入 。 一個 “鼠標 / 鍵盤到幀” 模塊 , 可將用戶輸入作為直接交互嵌入其中 , 從而在生成的視頻中實現幀級控制和動態響應 。
3、大規模交互式數據管道 。 一個適用于虛幻引擎(Unreal Engine)和《俠盜獵車手 5》(GTA5)的可擴展生產系統 , 能生成約1200小時的高質量交互式視頻數據 , 涵蓋多樣化場景 , 且具備幀級真實感 。
基于Matrix-Game 2.0生成的交互式模型
這款模型的視頻生成效果如何?有什么樣的應用價值?又有什么技術亮點?本文帶大家一探究竟 。
項目主頁:
https://matrix-game-v2.github.io/
HuggingFace地址:
https://huggingface.co/Skywork/Matrix-Game-2.0
GitHub地址:
https://github.com/SkyworkAI/Matrix-Game

一、低延遲、高幀率、長時序 , 國產交互式世界模型開源相較于上一版本 , Matrix-Game 2.0更加側重低延遲、高幀率的長序列交互性能 , 能夠以25 FPS的速度 , 在多種復雜場景中穩定生成連續視頻內容 , 且生成時長可擴展至分鐘級 , 大幅提升了連貫性與實用性 。
在推理速度顯著提升的同時 , 模型依然保持了對物理規律與場景語義的精準理解 , 支持用戶通過簡單指令 , 自由探索、操控并實時構建結構清晰、細節豐富、規則合理的虛擬環境 。
在性能測試上 , 如下圖所示 , Matrix-Game 2.0在 Minecraft場景的GameWorld Score基準測試中取得了好成績 , 在圖像質量、美學品質、鼠標指針等多個方面的得分均超過了全球首個實時可玩可交互的世界模型Oasis 。
例如在一些無約束、不可控的真實場景 , Matrix-Game 2.0可根據用戶輸入的任意控制指令 , 如鍵盤的 W/A/S/D 方向鍵、鼠標用于視角移動 , 生成對應的交互世界視頻 , 支持角色的前后左右移動以及視角變換等動態行為 。
Matrix-Game 2.0支持無約束、不可控的真實場景交互
在GTA游戲場景和Minecraft場景中 , Matrix-Game 2.0也支持鍵盤與鼠標操作 , 并且能夠生成真實感更強、符合物理邏輯的可交互視頻 。
Matrix-Game 2.0支持GTA游戲場景交互

二、自回歸擴散生成機制 , 實時生成長視頻交互式視頻生成領域的最新進展展現了擴散模型作為世界模型的潛力 。 然而 , 現有的交互式世界模型依賴于雙向注意力機制和冗長的推理步驟 , 嚴重限制了實時性能 。 因此 , 它們難以模擬現實世界的動態 。
為了解決這個問題 , 昆侖萬維提出了Matrix-Game 2.0 , 一個交互式世界模型 , 它通過幾步自回歸擴散算法實時生成長視頻 。 其基礎模型源自WanX , 通過移除文本分支并添加動作模塊 , 該模型僅根據視覺內容和對應的動作來預測下一幀 。
Matrix-Game 2.0的框架由三個關鍵組件組成:
1、一個適用于虛幻引擎和GTA5環境的可擴展數據生產流水線 , 可有效生成海量(約 1200小時)交互式視頻數據;
2、一個動作注入模塊 , 支持幀級鼠標和鍵盤輸入交互;
3、基于隨意架構的幾步提煉 , 用于實時流式視頻生成 。
Matrix-Game 2.0基于Self-Forcing訓練策略 , 通過創新的自回歸擴散生成機制克服了傳統雙向擴散模型的延遲和誤差累積問題:
1、因果擴散模型訓練:將雙向擴散模型蒸餾為因果模型 , 使用基礎模型初始化生成器 , 并構建小規模數據集 , 通過近似ODE軌跡進行訓練 , 穩定自回歸擴散過程 。 通過歷史幀條件生成當前幀 , 減少因依賴未來幀而導致的時序延遲 。
2、分布匹配蒸餾(DMD):通過最小化與基礎模型之間的分布差異 , 引導學生模型學習生成高質量視頻幀 , 對齊訓練與推理階段的分布 , 顯著緩解誤差積累問題 。
3、KV緩存機制:引入鍵值緩存機制(KV-Cache) , 顯著提升長視頻生成的效率和一致性 。 該機制通過維護固定長度的注意力上下文 , 實現無縫滾動生成 , 支持無限時長的視頻輸出 , 解決了訓練與推理場景下上下文不一致的問題 。 基于此實現長時視頻的高效生成而無需重復計算 , 單GPU上可實現25 FPS實時生成 。
Matrix-Game 2.0能夠以25 FPS的超快速度跨不同場景生成高質量的分鐘級視頻 。 昆侖萬維開源其模型權重和代碼庫 , 以推進交互式世界建模的研究 。

結語:世界模型加速具身智能、游戲影視發展以谷歌Genie等為代表的世界模型 , 正推動AI從內容生成工具升級為“世界構建者” , 昆侖萬維開源的Matrix系列是中國在空間智能領域取得里程碑進展 。
【AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成】隨著其最新迭代的Matrix-Game 2.0落地 , 具身智能體訓練與數據生成、虛擬游戲世界高效搭建、影視及元宇宙內容生產等領域有望加速發展 , 為中國AI產業開辟新范式 。

    推薦閱讀