開源版Genie 3世界模型:實時+長時間交互,單卡可跑,國內公司出品_ai|上城區

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
作者：澤南、楊文
國產開源版 Genie 3 問世，昆侖萬維用 1.8B 模型跑出了神級效果。
世界模型，正在迎來一次技術大突破。
本月初， Google DeepMind 發布的 Genie 3 ，因為效果驚艷，關注度直接超越了 OpenAI 同日發布的 GPT-5 。
Genie 3 實現了實時互動、高度一致化的生成，直接從「游戲畫面」邁入「真實世界」的程度，它能維持數分鐘的生成一致性，更重要的是還能做到實時響應。

Genie 3 實現的效果。
AI 領域里，技術發展的速度總是很快，沒過兩個星期，開源的實時世界模型就已經出現。
這款國產開源的新模型能把復雜的建筑和地形，玻璃的反光都模擬出真實感，符合物理邏輯。

或是模擬出《俠盜獵車手》（GTA）的大地圖，讓你可以在其中自由探索。

如果你上傳一個神廟逃亡游戲的截圖，就可以在這個世界模型里面開一局， AI 腦補出來的畫面會無限地向前延伸。

它就是昆侖萬維發布的交互世界模型「Matrix-Game 2.0」，它的參數量僅有 1.8B ，能跑在單塊 GPU 上，生成的虛擬環境幀率能達到 25FPS ，我們在其中可以用鍵盤 WASD 按鍵進行實時的自由移動和視角控制，實現持續時長達分鐘級的互動。

最重要的是，它還是完全開源的（有權重 + 代碼庫），任何人都可以免費使用和修改，還可以自己上傳圖片進行體驗。
項目鏈接：https://matrix-game-v2.github.io/ GitHub 鏈接：https://github.com/SkyworkAI/Matrix-Game HuggingFace：https://huggingface.co/Skywork/Matrix-Game-2.0Matrix-Game 2.0 成為了業內首個在通用場景上實現實時長序列、交互式生成的世界模型開源方案，相比過去的開源模型有了質的飛躍。它也成為了在外網引發關注的又一個國內開源模型。

有人已經在說「這是開源版本的 Genie 3」了。它的效果究竟如何，我們第一時間進行了實測。
一手實測
丟張圖即可走進實時生成的虛擬世界
世界模型一直面臨諸多挑戰，尤其是在處理復雜環境、實時交互和高度動態變化的情況下。傳統的世界模型通常依賴大量高質量數據，且在缺乏預設情境時難以進行準確推理和反應。同時，這類模型在生成和更新時需要消耗龐大的計算資源，導致實時反饋效率受限，從而難以真正落地應用。
昆侖萬維推出的 Matrix-Game 2.0 為這一領域帶來了新突破。這款交互式世界模型結合了高度自由的操作與實時生成的特點，提供了一種獨特的玩法體驗。
我們只需上傳一張靜態圖片，模型便會基于該圖像加載并生成一個虛擬世界。玩家可以通過方向鍵或 WASD 鍵控制人物在虛擬世界中的移動，且每一次人物的移動都會實時影響環境，并生成新的視頻內容。
例如，我們丟給它一張 3A 大作《荒野大鏢客》的游戲畫面，并控制方向和視角切換，模型最終生成的視頻展示了非常細膩的自然景觀。

從山上俯瞰，一條清澈的河流蜿蜒流淌，看起來， Matrix-Game 2.0 不僅能夠理解海拔的高度差異，還能夠模擬出流水的動態效果，這種精細的渲染無疑增加了虛擬世界的真實感與沉浸感。

再以經典的《CS:GO》地圖 De_Dust2 為例，模型不僅加載了現有場景，還展現出強大的推理和補充能力。它能夠基于圖像信息自然拓展額外視角和細節，確保生成視頻在場景一致性和時序連貫性上的高度可靠。

對于《我的世界》這種像素畫風的游戲場景， Matrix-Game 2.0 同樣表現出了極高的創造力。通過將靜態元素轉化為動態場景，模型生成了一段如同無人機航拍的視角視頻，展現了兩側山脈的輪廓、梯田的層次、高大的樹木，以及河流中的倒影。

最近，《戰地 6》在全球范圍內引起了廣泛關注，預購開啟后短時間內登上 PS5 及 Steam 多個國家的暢銷榜，并在 Beta 公測期間以 52 萬 Steam 同時在線人數打破記錄。
我們利用 Matrix-Game 2.0 復刻了這款尚未發售的 3A 游戲精細地圖，每次角色移動和視角切換都會實時觸發新的畫面生成。高幀率和物理一致性保證了操作與畫面的緊密結合，充分展現了其在高復雜度交互場景中的潛力。

Matrix-Game 2.0 的能力不僅局限于游戲場景，在現實世界模擬中，它能快速響應用戶的視角與移動變化，生成符合物理規律的自然畫面。
例如，它成功復現了自行車騎行的第一視角：柏油馬路筆直延伸，兩旁的行道樹不斷后撤，畫面細節豐富、動態感強，每一幀都精準模擬了現實騎行的空間感與真實感。

前段時間， Google DeepMind 研究科學家 Aleksander Holynski 使用谷歌 Genie3 ，「走」進 1978 年的名畫《蘇格拉底之死》，吸引了不少網友圍觀。

這次我們也來個「名畫漫游」，讓 Matrix-Game 2.0 生成一段梵高《星空》的視頻，可以自定義不同角度觀察畫作，感受其構圖、色彩與氛圍的變化。

同樣，我們還通過模型生成了宮崎駿風格的鄉間小道場景，隨著方向鍵的切換，生成的畫面景色也隨之變化，腦補出的畫面毫無違和感，甚至連樹影都模擬出來了。

經過一系列測試，我們認為 Matrix-Game 2.0 的技術確實具備巨大的潛力。作為一個開源項目，它已經能夠實現高度真實的虛擬世界生成和實時交互，為游戲開發者和玩家提供全新的可能性。當然，它也有不少可以提升的空間，比如視覺保真度并不總是能與主流游戲工作室的水平相媲美，而且復雜的交互有時對 AI 來說也難以完美處理。
不過這是一個好的開始， Matrix-Game 2.0 讓我們看到，虛擬世界與現實交互的邊界正在被逐步打破，下一代游戲和智能體或許就將以此為基石。
從數據生成到模型架構
核心技術全面突破
在上周開源模型的同時，昆侖萬維同時放出了 Matrix-Game 2.0 的技術報告，我們可以在其中看到不少技術細節。

技術報告鏈接：https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf最近一段時間，基于擴散模型的方法讓我們看到了交互式視頻生成的潛力。但是，現有的交互式世界模型依賴于雙向注意力機制和冗長的推理步驟，嚴重限制了實時性能，難以模擬現實世界的動態。
為解決這個問題，昆侖萬維提出了一種全新的視覺驅動交互世界建模方案，徹底擺脫了此前依賴語言提示的生成模式，專注于通過視覺理解和物理規律學習來構建虛擬世界。
在 Matrix-Game 2.0 上，研究人員通過少步驟自回歸擴散算法實時生成長視頻，引入了一個專為實時模擬和交互設計的高效框架，同時應對解決了效率和可控性的挑戰。
Matrix-Game 2.0 模型由三個關鍵組件組成：
適用于虛幻引擎和 GTA5 環境的可擴展數據生產流水線，可有效生成海量（約 1200 小時）交互式視頻數據；動作注入模塊，支持幀級鼠標和鍵盤輸入交互；基于自回歸擴散模型的少步驟蒸餾，用于實時流式視頻生成。基于以上架構和訓練機制， Matrix -Game 2.0 能夠在單塊英偉達 H100 GPU 上以 25 FPS 的速度跨不同場景生成高質量的分鐘級視頻。
在模型的構建過程中，首先昆侖萬維設計并實現了全面的數據生產管線，以支持交互式視頻生成模型的大規模訓練，克服精準匹配鍵盤控制與畫面、完善動態交互這兩大挑戰。其開發的多樣化數據集生產流程包含從著名游戲引擎虛幻引擎和游戲 GTA5 的模擬環境中獲取靜態與動態場景。
虛幻引擎的數據生產管線如下所示：

為了獲取更多交互式動態場景，工程人員在 GTA5 環境中開發了一個綜合記錄系統，使用 Script Hook V 擴展工具，使視覺內容與相應的用戶動作同步捕捉。這個數據整理流程收集了超過 120 萬個視頻片段，它們的整體準確率超過 99% 。

GTA5 采集數據的軌跡。
在 Matrix-Game 2.0 的基礎模型框架上，昆侖萬維也進行了一系列獨特的設計。模型源自 WanX ，通過移除文本分支并添加動作模塊，該模型僅根據視覺內容和對應的動作來預測下一幀的畫面。
【開源版Genie 3世界模型:實時+長時間交互,單卡可跑,國內公司出品】該系統首先對原始視頻數據進行時空壓縮，圖像輸入通過 3D Causal VAE 和 CLIP 圖像編碼器作為條件輸入進行處理。在用戶提供的輸入動作的引導下， DiT 模型（Diffusion Transformer）生成一個視覺隱空間序列，隨后通過 3D VAE 解碼器將其解碼為視頻。
簡單來說，這種機制避免了語言先驗可能帶來的語義偏置，轉而專注于圖像的空間結構和動態模式，可以更準確地理解和生成虛擬世界。
為了讓人們可以與生成內容互動， Matrix-Game 2.0 系統集成了動作條件控制模塊，支持幀級鍵盤與鼠標交互輸入。在其中，連續的鼠標操作會直接與輸入的潛在表征相連接，經多層感知機（MLP）層處理后，再通過時序自注意力層進行動態調整。此外，鍵盤操作通過交叉注意力層對融合特征進行查詢，從而實現交互操作的精準可控性。

Matrix-Game 2.0 基礎模型框架。
最后，為了生成更長的視頻，減少內容上出現的偏差，昆侖萬維開發了一種用于實時長視頻合成的自回歸擴散生成機制，通過 Self-Forcing 把雙向基礎模型轉化為高效的自回歸變體，讓每個幀基于先前自生成的輸出而非真實值進行條件化處理，從而解決了暴露偏差，顯著減少了此前世界模型中常見的誤差累積問題。

自驅動因果擴散模型訓練流程示意圖。通過自條件生成機制，蒸餾過程將學生模型的分布與教師模型進行對齊。該方法在保持生成質量的同時有效抑制了誤差累積。
實驗效果如何？在與 Oasis 世界模型的對比上， Matrix-Game 2.0 在長時間互動視頻生成方面效果更好：Oasis 會在生成幾十幀之后效果明顯下降， Matrix-Game 2.0 則能夠一直保持穩定。

Matrix-Game 2.0 和 Oasis 生成畫面效果的對比。
定量比較的話， Matrix-Game 2.0 在圖像質量、時間一致性、控制準確性等方面保持領先，同時也保證了靈活性和效率不降低。

可見，昆侖萬維的新方法可以有效減少當初 Oasis 模型「轉一圈畫風完全變了」的尷尬情況，這對于面向實際落地的應用來說非常重要。
昆侖萬維
持續發力開源社區
Matrix-Game 2.0 并不是昆侖萬維第一次展示實力。在開源領域，最近這家公司的名字越來越頻繁地出現。
僅在今年，昆侖萬維就開源獎勵模型 Skywork-Reward-V2 ，無限時長電影生成模型 SkyReels-V2 ，多模態推理模型 Skywork-R1V ，面向數學、代碼等領域的文本推理模型 Skywork-OR1 ，以及軟件工程自主代碼智能體基座模型 Skywork-SWE 等等多款模型。

在 HuggingFace 上，昆侖萬維的模型熱度很高。
上周連續五天的技術發布活動，昆侖萬維還陸續發布了 SkyReels-A3 視頻生成模型、世界模型 Matrix-Game 2.0 與 Matrix-3D、Skywork UniPic 2.0 多模態訓練推理框架， Skywork Deep Research Agent v2、Mureka V7.5 等等一系列 AI 模型、工具。這一套覆蓋圖像、音頻、視頻、音樂、智能體的組合拳，向世人展示了該公司持續深耕技術的成果。
這些 AI 領域的新技術，有很多都實現了業界領先的水平，不僅讓昆侖萬維在技術落地上不斷擴大版圖，也通過不斷的開源反哺了研究社區。
當然，這樣持續不懈的前沿技術研發也在引發質變，開啟新的方向。
世界模型
進入實用階段
在 DeepMind 的 Genie 3 發布后，很多人發現，世界模型已經不再是個未來式，而是正在展現出很大應用潛力。 DeepMind 自己就表示，希望能把世界模型生成的環境直接對齊到機械臂和具身智能的訓練上。
在很多情況下，具身智能的基礎模型面臨著數據匱乏、采集難、難以泛化等問題，世界模型生成的虛擬環境，可以成為 AI 完美的訓練場。世界模型會在學習物理規律、事物之間交互規則等知識后進行預測和規劃。在其中進行探索的機器人、自動駕駛汽車依據這些規則進行交互，就可以訓練出更多的智能。
可見不僅在游戲、虛擬人等娛樂場景中，在發展現實世界生產力的「物理 AI」方面，世界模型也可以發揮作用。
在 Matrix-Game 2.0 等開源技術出現之后，世界模型實用化的腳步還會加快。

開源版Genie 3世界模型:實時+長時間交互,單卡可跑,國內公司出品

推薦閱讀

梔子花有什么顏色

宮保雞丁怎么炒

金屬氧化性順序表金屬離子氧化性順序表

廣東廣西的廣是指廣東廣西的廣是指什么

爐石傳說擎旗奔行者怎么樣爐石擎旗奔行者效果一覽

沖雞是好是壞

夢見女鬼對我笑夢見女鬼對我笑是什么意思

過了三伏適合游泳嗎

席地而坐簡筆畫步驟席地而坐簡筆畫畫法

陳醋雞腳的正確方法

榆次御?Z房價,太原榆次房價漲了還是跌了

外媒評測iPhone,iphone xs評測

牛肉怎么醬出來的

長沙民政職業技術學院官網，了解長沙航空職業技術學院請進

讀《濫竽充數》有感濫竽充數讀后感

breadnbutter,面包黃油是什么顏色