震撼,英偉達新模型能打遍幾乎所有游戲

震撼,英偉達新模型能打遍幾乎所有游戲

文章圖片

震撼,英偉達新模型能打遍幾乎所有游戲

文章圖片

震撼,英偉達新模型能打遍幾乎所有游戲

文章圖片

震撼,英偉達新模型能打遍幾乎所有游戲

文章圖片

震撼,英偉達新模型能打遍幾乎所有游戲

文章圖片



編輯|冷貓
話不多說 , 先給大家看個視頻 。

這流暢的游戲動作 , 簡直堪比是技術流游戲玩家的實況畫面 。 尤其是茶杯頭的躲避跳躍踩靈魂一氣呵成 , 讓我們自愧不如 。 我要有這么快的反應和操作水準 , 玩絲之歌真不至于紅溫 。
最令人震撼的是 , 上面視頻里的操作完完全全是 AI 操作出來的 。
和傳統的游戲自動化腳本不同 , 這是一個完整的通用的大模型 , 不僅限于單一游戲的操作 , 能夠玩遍市面上幾乎全部的游戲類型 。
于是 , 讓我們正式介紹主角 , 來自英偉達的最新開源基礎模型 NitroGen 。
該模型的訓練目標是玩 1000 款以上的游戲 —— 無論是 RPG、平臺跳躍、吃雞、競速 , 還是 2D、3D 游戲 , 統統不在話下!

模型直接以游戲視頻幀作為輸入 , 輸出真實的手柄操作信號 , 天然適配所有支持手柄的游戲 。 NitroGen 支持后訓練 , 意味著當它面對一款從未見過的新游戲時 , 并不需要從零開始學習規則 , 只需少量微調或輕量適配 , 就能迅速上手 , 真正具備了跨游戲泛化的潛力 。

項目地址: https://nitrogen.minedojo.org 論文地址: https://nitrogen.minedojo.org/assets/documents/nitrogen.pdf 代碼鏈接: https://github.com/MineDojo/NitroGen 預訓練模型: https://huggingface.co/nvidia/NitroGen 數據集: https://huggingface.co/datasets/nvidia/NitroGen模型配方
英偉達研究團隊發現 , 原本為機器人設計的 GR00T N1.5 架構 , 只需極少改動 , 就能適配機制差異極大的各類游戲 。
NitroGen 的設計融合了三項關鍵要素:
1. 互聯網規模的視頻 - 動作數據集:通過從公開可獲取的游戲視頻中 , 自動提取玩家操作 , 構建而成;
2. 多游戲基準評測環境:用于系統性地評估模型在不同游戲之間的泛化能力;
3. 統一的視覺 - 動作策略模型:采用大規模行為克隆進行訓練 。

總體概覽
NitroGen 由三個核心組件構成:
1. 多游戲基礎智能體
一個通用的視覺 - 動作模型 , 能夠接收游戲觀測(如視頻?。 ?, 并生成對應的手柄操作指令 , 實現跨多款游戲的零樣本(zero-shot)游玩能力 , 同時也可作為基礎模型 , 用于對新游戲進行進一步微調與適配 。
2. 通用模擬器
一個環境封裝層 , 使任意商業游戲都可以通過 Gymnasium API 進行控制 , 從而統一不同游戲的交互接口 , 支持大規模訓練與評測 。
3. 互聯網規模的數據集
目前規模最大、類型最豐富的開源游戲數據集之一 , 來源于 40000 小時的公開游戲視頻 , 覆蓋 1000 余款游戲 , 并自動提取并生成了對應的動作標簽 。
互聯網規模多游戲視頻動作數據集
通過從屏幕顯示中提取玩家的實時手柄操作來獲取動作信息 , 這類顯示被稱為 「輸入疊加層(input overlays)」 。

研究團隊收集了大量公開可獲取的、帶有「手柄操作疊加顯示」的游戲視頻 。 這些疊加層具有高度多樣性 , 給數據處理帶來了顯著挑戰:不同內容創作者使用的手柄類型差異很大(如 Xbox、PlayStation 或其他控制器) , 疊加層的透明度各不相同 , 同時視頻壓縮還會引入各種視覺偽影 。

對于每一段收集到的視頻 , 研究團隊會采樣 25 幀圖像 , 并使用 SIFT 與 XFeat 特征 , 與精心整理的模板集合進行關鍵點匹配 , 以此定位手柄在畫面中的位置 。 隨后 , 基于模板匹配的結果 , 對視頻中的手柄區域進行定位與裁剪 。
數據整理的過程本身就很有意思:研究團隊發現 , 玩家非常樂于展示自己的操作技巧 , 常常會在視頻中疊加實時顯示的手柄輸入 。 于是團隊訓練了一個分割模型 , 自動檢測并提取這些手柄顯示區域 , 將其轉換為「專家級動作標簽」 。
隨后 , 研究團隊會把這一區域在視頻中遮擋掉 , 防止模型通過「偷看答案」的方式走捷徑 。 在訓練過程中 , GR00T N1.5 的一個變體使用擴散 Transformer , 從 4 萬小時的像素級輸入直接學習到動作輸出 。

【震撼,英偉達新模型能打遍幾乎所有游戲】NitroGen 數據集在不同游戲與類型上的分布情況
在完成數據篩選后 , 該數據集共包含 40000 小時的游戲視頻 , 覆蓋 1000 余款游戲 。
(a)單游戲數據時長分布
從每款游戲對應的視頻時長來看 , 數據覆蓋范圍廣泛:846 款游戲擁有 超過 1 小時的數據 , 91 款游戲擁有 超過 100 小時的數據 , 其中還有 15 款游戲的累計數據量 超過 1000 小時 。
(b)游戲類型分布
從游戲類型來看 , 動作 RPG 占比最高 , 占總時長的 34.9%;其次是 平臺跳躍類 , 占 18.4%;再次是 動作冒險類 , 占 9.2%;其余數據分布在多種不同游戲類型之中 。
超強操作
實驗結果表明 , NitroGen 在多種不同類型的游戲場景中均表現出較強能力 , 包括:
3D 動作游戲中的戰斗對抗 , 2D 平臺跳躍游戲中的高精度操作 , 以及程序生成世界中的探索任務 。
NitroGen 500M 模型在不同游戲上的預訓練結果
使用 Flow-Matching 的 GR00T 架構 , 在完整的 NitroGen 數據集上訓練了一個 5 億參數的統一模型 。 評估在行為克?。 ╞ehavior cloning)預訓練完成后進行 。 對于每一款游戲 , 研究團隊在 3 個不同任務上進行測試 , 每個任務執行 5 次 rollout , 并統計平均任務完成率 。
在未進行任何額外微調的情況下 , 盡管模型僅基于噪聲較大的互聯網數據集進行訓練 , NitroGen 仍然能夠在多種游戲中完成非平凡(non-trivial)的任務 , 覆蓋了不同的視覺風格(如 3D、2D 俯視視角、2D 橫向卷軸)以及多樣的游戲類型(平臺跳躍、動作 RPG、Roguelike 等) 。

后訓練實驗結果
更重要的是 , NitroGen 能夠有效遷移到從未見過的新游戲 。 在相同任務設定下 , 其任務成功率相比從零開始訓練的模型 , 最高可實現 52% 的相對提升 。
這項工作能夠殺死比賽 。
通用機器人的基礎
NitroGen 只是一個起點 , 模型能力仍有很大的爬坡空間 。 研究團隊在這次工作中有意只聚焦于無需深度思考、快速反應的「玩家直覺式運動控制」 。
據英偉達機器人總監 Jim Fan 所說 , 他們的目標 , 是打造通用型具身智能體:不僅能掌握現實世界的物理規律 , 還能適應一個由無數模擬環境構成的「多元宇宙」中的所有可能物理規則 。
這就是為什么許許多多的交互大模型都對電子游戲的操作念念不忘 。 電子游戲具備了相當完整的世界和交互體系 , 每個游戲都是一個非常復雜完善的模擬環境 , 模型能夠實現通用的游戲操作 , 離操作機器人進行真實世界交互也就將更進一步 。
英偉達已開源發布該模型的數據集、評測套件以及模型權重 , 以推動通用具身智能體方向的進一步研究 。
今天 , 機器人學是 AI 中「最難問題的超集」 。 明天 , 它可能只會成為具身 AGI 巨大潛在空間中的一個子集、一個點 。
那時 , 只需要用自然語言提示 , 請求一個機器人「游戲手柄」即可 。
文中視頻鏈接:https://mp.weixin.qq.com/s/J0OgAnGDM1VAsDfYNnzXnA

    推薦閱讀