震撼，英偉達新模型能打遍幾乎所有游戲

2026-04-26 手柄英偉達

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯｜冷貓
話不多說，先給大家看個視頻。

這流暢的游戲動作，簡直堪比是技術流游戲玩家的實況畫面。尤其是茶杯頭的躲避跳躍踩靈魂一氣呵成，讓我們自愧不如。我要有這么快的反應和操作水準，玩絲之歌真不至于紅溫。
最令人震撼的是，上面視頻里的操作完完全全是 AI 操作出來的。
和傳統的游戲自動化腳本不同，這是一個完整的通用的大模型，不僅限于單一游戲的操作，能夠玩遍市面上幾乎全部的游戲類型。
于是，讓我們正式介紹主角，來自英偉達的最新開源基礎模型 NitroGen 。
該模型的訓練目標是玩 1000 款以上的游戲 —— 無論是 RPG、平臺跳躍、吃雞、競速，還是 2D、3D 游戲，統統不在話下！

模型直接以游戲視頻幀作為輸入，輸出真實的手柄操作信號，天然適配所有支持手柄的游戲。 NitroGen 支持后訓練，意味著當它面對一款從未見過的新游戲時，并不需要從零開始學習規則，只需少量微調或輕量適配，就能迅速上手，真正具備了跨游戲泛化的潛力。

項目地址: https://nitrogen.minedojo.org 論文地址: https://nitrogen.minedojo.org/assets/documents/nitrogen.pdf 代碼鏈接: https://github.com/MineDojo/NitroGen 預訓練模型: https://huggingface.co/nvidia/NitroGen 數據集: https://huggingface.co/datasets/nvidia/NitroGen模型配方
英偉達研究團隊發現，原本為機器人設計的 GR00T N1.5 架構，只需極少改動，就能適配機制差異極大的各類游戲。
NitroGen 的設計融合了三項關鍵要素：
1. 互聯網規模的視頻 - 動作數據集：通過從公開可獲取的游戲視頻中，自動提取玩家操作，構建而成；
2. 多游戲基準評測環境：用于系統性地評估模型在不同游戲之間的泛化能力；
3. 統一的視覺 - 動作策略模型：采用大規模行為克隆進行訓練。

總體概覽
NitroGen 由三個核心組件構成：
1. 多游戲基礎智能體
一個通用的視覺 - 動作模型，能夠接收游戲觀測（如視頻?。 ?，并生成對應的手柄操作指令，實現跨多款游戲的零樣本（zero-shot）游玩能力，同時也可作為基礎模型，用于對新游戲進行進一步微調與適配。
2. 通用模擬器
一個環境封裝層，使任意商業游戲都可以通過 Gymnasium API 進行控制，從而統一不同游戲的交互接口，支持大規模訓練與評測。
3. 互聯網規模的數據集
目前規模最大、類型最豐富的開源游戲數據集之一，來源于 40000 小時的公開游戲視頻，覆蓋 1000 余款游戲，并自動提取并生成了對應的動作標簽。
互聯網規模多游戲視頻動作數據集
通過從屏幕顯示中提取玩家的實時手柄操作來獲取動作信息，這類顯示被稱為「輸入疊加層（input overlays）」。

研究團隊收集了大量公開可獲取的、帶有「手柄操作疊加顯示」的游戲視頻。這些疊加層具有高度多樣性，給數據處理帶來了顯著挑戰：不同內容創作者使用的手柄類型差異很大（如 Xbox、PlayStation 或其他控制器），疊加層的透明度各不相同，同時視頻壓縮還會引入各種視覺偽影。

對于每一段收集到的視頻，研究團隊會采樣 25 幀圖像，并使用 SIFT 與 XFeat 特征，與精心整理的模板集合進行關鍵點匹配，以此定位手柄在畫面中的位置。隨后，基于模板匹配的結果，對視頻中的手柄區域進行定位與裁剪。
數據整理的過程本身就很有意思：研究團隊發現，玩家非常樂于展示自己的操作技巧，常常會在視頻中疊加實時顯示的手柄輸入。于是團隊訓練了一個分割模型，自動檢測并提取這些手柄顯示區域，將其轉換為「專家級動作標簽」。
隨后，研究團隊會把這一區域在視頻中遮擋掉，防止模型通過「偷看答案」的方式走捷徑。在訓練過程中， GR00T N1.5 的一個變體使用擴散 Transformer ，從 4 萬小時的像素級輸入直接學習到動作輸出。

【震撼，英偉達新模型能打遍幾乎所有游戲】NitroGen 數據集在不同游戲與類型上的分布情況
在完成數據篩選后，該數據集共包含 40000 小時的游戲視頻，覆蓋 1000 余款游戲。
（a）單游戲數據時長分布
從每款游戲對應的視頻時長來看，數據覆蓋范圍廣泛：846 款游戲擁有超過 1 小時的數據， 91 款游戲擁有超過 100 小時的數據，其中還有 15 款游戲的累計數據量超過 1000 小時。
（b）游戲類型分布
從游戲類型來看，動作 RPG 占比最高，占總時長的 34.9%；其次是平臺跳躍類，占 18.4%；再次是動作冒險類，占 9.2%；其余數據分布在多種不同游戲類型之中。
超強操作
實驗結果表明， NitroGen 在多種不同類型的游戲場景中均表現出較強能力，包括：
3D 動作游戲中的戰斗對抗， 2D 平臺跳躍游戲中的高精度操作，以及程序生成世界中的探索任務。
NitroGen 500M 模型在不同游戲上的預訓練結果
使用 Flow-Matching 的 GR00T 架構，在完整的 NitroGen 數據集上訓練了一個 5 億參數的統一模型。評估在行為克?。 ╞ehavior cloning）預訓練完成后進行。對于每一款游戲，研究團隊在 3 個不同任務上進行測試，每個任務執行 5 次 rollout ，并統計平均任務完成率。
在未進行任何額外微調的情況下，盡管模型僅基于噪聲較大的互聯網數據集進行訓練， NitroGen 仍然能夠在多種游戲中完成非平凡（non-trivial）的任務，覆蓋了不同的視覺風格（如 3D、2D 俯視視角、2D 橫向卷軸）以及多樣的游戲類型（平臺跳躍、動作 RPG、Roguelike 等）。

后訓練實驗結果
更重要的是， NitroGen 能夠有效遷移到從未見過的新游戲。在相同任務設定下，其任務成功率相比從零開始訓練的模型，最高可實現 52% 的相對提升。
這項工作能夠殺死比賽。
通用機器人的基礎
NitroGen 只是一個起點，模型能力仍有很大的爬坡空間。研究團隊在這次工作中有意只聚焦于無需深度思考、快速反應的「玩家直覺式運動控制」。
據英偉達機器人總監 Jim Fan 所說，他們的目標，是打造通用型具身智能體：不僅能掌握現實世界的物理規律，還能適應一個由無數模擬環境構成的「多元宇宙」中的所有可能物理規則。
這就是為什么許許多多的交互大模型都對電子游戲的操作念念不忘。電子游戲具備了相當完整的世界和交互體系，每個游戲都是一個非常復雜完善的模擬環境，模型能夠實現通用的游戲操作，離操作機器人進行真實世界交互也就將更進一步。
英偉達已開源發布該模型的數據集、評測套件以及模型權重，以推動通用具身智能體方向的進一步研究。
今天，機器人學是 AI 中「最難問題的超集」。明天，它可能只會成為具身 AGI 巨大潛在空間中的一個子集、一個點。
那時，只需要用自然語言提示，請求一個機器人「游戲手柄」即可。
文中視頻鏈接：https://mp.weixin.qq.com/s/J0OgAnGDM1VAsDfYNnzXnA

推薦閱讀

上一篇：蘋果、華為在降價，小米卻又要漲價了？

下一篇：鹽言故事發布2025短篇故事影響力榜：短劇改編優秀IP首次入選