RL新思路!復旦用游戲增強VLM通用推理,性能匹敵幾何數據

RL新思路!復旦用游戲增強VLM通用推理,性能匹敵幾何數據

文章圖片

RL新思路!復旦用游戲增強VLM通用推理,性能匹敵幾何數據

文章圖片

RL新思路!復旦用游戲增強VLM通用推理,性能匹敵幾何數據

文章圖片

RL新思路!復旦用游戲增強VLM通用推理,性能匹敵幾何數據

文章圖片

RL新思路!復旦用游戲增強VLM通用推理,性能匹敵幾何數據

文章圖片

【RL新思路!復旦用游戲增強VLM通用推理,性能匹敵幾何數據】RL新思路!復旦用游戲增強VLM通用推理,性能匹敵幾何數據

文章圖片

RL新思路!復旦用游戲增強VLM通用推理,性能匹敵幾何數據

文章圖片

RL新思路!復旦用游戲增強VLM通用推理,性能匹敵幾何數據
編輯:LRST
【新智元導讀】復旦大學NLP實驗室研發Game-RL , 利用游戲豐富視覺元素和明確規則生成多模態可驗證推理數據 , 通過強化訓練提升視覺語言模型的推理能力 。 創新性地提出Code2Logic方法 , 系統化合成游戲任務數據 , 構建GameQA數據集 , 驗證了游戲數據在復雜推理訓練中的優勢 。


現有工作利用RL提升了視覺語言模型(VLM)的推理能力 , 但其任務場景往往是幾何或者圖表推理 。 這種領域上的局限 , 制約了VLM的探索和學習 。
如何拓展VLM的RL訓練領域呢?
電子游戲視覺元素豐富 , 且規則明確而可驗證 , 因而是理想的多模態推理數據源 。
由此 , 復旦大學NLP實驗室的研究團隊提出了Game-RL——構造多模態可驗證的游戲任務來強化訓練VLM 。

論文鏈接:https://arxiv.org/abs/2505.13886
代碼倉庫:https://github.com/tongjingqi/Game-RL
數據和模型:https://huggingface.co/Code2Logic
為獲得訓練數據(如圖1的示例) , 研究人員還提出了新穎的Code2Logic方法 , 通過游戲代碼系統化合成數據 。

圖1:GameQA數據集中各游戲類別的代表性游戲:3D重建、七巧板(變體)、數獨和推箱子 。 各游戲展示兩個視覺問答示例 , 包含當前游戲狀態圖片 , 相應的問題 , 以及逐步推理過程和答案 。
Code2Logic方法創新性地基于游戲代碼合成多模態可驗證游戲任務數據 。
如圖2 , 利用強LLM生成游戲代碼、設計任務及其模板、構建數據引擎代碼 , 最后只要執行代碼便能自動生成數據 。

圖2:Code2Logic方法 , 借助LLM通過三個核心步驟將游戲代碼轉換為推理數據 。 第一步:游戲代碼構建;第二步:游戲任務及其QA模板設計;第三步:數據引擎構建 , 基于前兩步構建自動化程序 , 然后只要執行代碼就能自動批量生成數據 。



GameQA
豐富的游戲任務數據集


利用Code2Logic方法構建了GameQA數據集 , 這些多模態可驗證游戲數據可以用于VLM推理能力的訓練和評測 。
GameQA有:4大認知能力類別、30個游戲(如圖3)、158個推理任務、14萬個問答對 。
難度分級:任務按難度分三級;樣本按視覺輸入復雜度分三級 。

圖3:GameQA的30個游戲 , 分為4個認知能力類別 , 涵蓋3D空間推理、模式識別與匹配、多步推理、策略規劃 。 20個域內游戲用于訓練和測試 , 而10個域外游戲不參與訓練 , 用于測試模型在未見游戲場景下的泛化能力 。



核心發現
Game-RL可提升VLM的通用推理
在GameQA上使用GRPO訓練 , 4個開源VLM在7個完全域外的通用視覺語言推理基準上均取得提升(Qwen2.5-VL-7B平均提升2.33%) , 展現出跨領域泛化 , 如表1 。

表1:通用視覺語言推理基準上的評測結果



訓練效果
GameQA匹敵幾何數據集
研究團隊用GameQA和幾何與圖表推理數據集進行對比訓練 , 發現GameQA可與之匹敵 。
如表2 , 盡管訓練數據量更少且領域不匹配 , 但GameQA訓的模型在通用基準上總體表現很有競爭力 。 而且在MathVista與MathVerse這兩個和幾何與函數推理有關的基準上 , Game竟能匹敵更「對口」的幾何推理數據訓練 。
這表明游戲中的認知多樣性和推理復雜性 , 具有通用性和遷移能力 。

表2:對比訓練 , 5K GameQA樣本 vs. 8K MAVIS(幾何與函數視覺推理)vs. 8K Multimodal-Open-R1(以幾何推理為主)vs. 8K MultiMath(綜合的數學領域多模態推理) , GameQA訓練的模型總體很有競爭力 , 實驗也顯示混合訓練(MultiMath中加入GameQA數據)能助力模型提得更多 。



Scaling Effect
訓練數據量和游戲個數的影響


數據量的Scaling Effect:加大訓練的GameQA數據量至20K , 實驗顯示 , 模型在通用推理基準上的表現總體呈持續提升 , 如圖4 。

圖4:訓練數據量的Scaling Effect
游戲個數的Scaling Effect:隨著訓練的游戲種類變多 , 域外泛化效果增強 , 如圖5 。

圖5:使用20種游戲的任務訓練 , 模型在域外通用基準上的提升優于使用4種或10種游戲的配置 。



深度剖析
Game-RL后模型能力提升在哪?


為更好理解Game-RL對VLM推理能力的提升 , 研究團隊隨機采樣了案例進行了細致的人工分析 。 結果顯示 , Game-RL后 , 模型在視覺感知和文本推理兩個方面都有提升 , 如圖6 。

圖6:人工定性分析得知模型的視覺感知和文本推理能力均有提升 。 上方的兩個餅圖分別是域外通用基準上 , 視覺感知和文本推理能力的變化情況 , 下方是視覺感知能力提升的一個案例 。



結論


研究提出了Game-RL以及游戲數據合成方法Code2Logic , 構建了GameQA數據集 , 將VLM強化訓練領域拓展到游戲場景 。
通過實驗 , 研究團隊驗證了Game-RL能提升VLM的通用推理 。
進一步而言 , 也揭示了游戲場景可以提供多模態、可控、可驗證數據 , 具有重要價值 。

    推薦閱讀