RL新思路！復旦用游戲增強VLM通用推理，性能匹敵幾何數據

2026-04-26 人工智能 ai 微軟維基百科

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

【RL新思路！復旦用游戲增強VLM通用推理，性能匹敵幾何數據】

文章圖片

文章圖片

編輯：LRST
【新智元導讀】復旦大學NLP實驗室研發Game-RL ，利用游戲豐富視覺元素和明確規則生成多模態可驗證推理數據，通過強化訓練提升視覺語言模型的推理能力。創新性地提出Code2Logic方法，系統化合成游戲任務數據，構建GameQA數據集，驗證了游戲數據在復雜推理訓練中的優勢。

現有工作利用RL提升了視覺語言模型（VLM）的推理能力，但其任務場景往往是幾何或者圖表推理。這種領域上的局限，制約了VLM的探索和學習。
如何拓展VLM的RL訓練領域呢？
電子游戲視覺元素豐富，且規則明確而可驗證，因而是理想的多模態推理數據源。
由此，復旦大學NLP實驗室的研究團隊提出了Game-RL——構造多模態可驗證的游戲任務來強化訓練VLM 。

論文鏈接：https://arxiv.org/abs/2505.13886
代碼倉庫：https://github.com/tongjingqi/Game-RL
數據和模型：https://huggingface.co/Code2Logic
為獲得訓練數據（如圖1的示例），研究人員還提出了新穎的Code2Logic方法，通過游戲代碼系統化合成數據。

圖1：GameQA數據集中各游戲類別的代表性游戲：3D重建、七巧板（變體）、數獨和推箱子。各游戲展示兩個視覺問答示例，包含當前游戲狀態圖片，相應的問題，以及逐步推理過程和答案。
Code2Logic方法創新性地基于游戲代碼合成多模態可驗證游戲任務數據。
如圖2 ，利用強LLM生成游戲代碼、設計任務及其模板、構建數據引擎代碼，最后只要執行代碼便能自動生成數據。

圖2：Code2Logic方法，借助LLM通過三個核心步驟將游戲代碼轉換為推理數據。第一步：游戲代碼構建；第二步：游戲任務及其QA模板設計；第三步：數據引擎構建，基于前兩步構建自動化程序，然后只要執行代碼就能自動批量生成數據。

GameQA
豐富的游戲任務數據集

利用Code2Logic方法構建了GameQA數據集，這些多模態可驗證游戲數據可以用于VLM推理能力的訓練和評測。
GameQA有：4大認知能力類別、30個游戲（如圖3）、158個推理任務、14萬個問答對。
難度分級：任務按難度分三級；樣本按視覺輸入復雜度分三級。

圖3：GameQA的30個游戲，分為4個認知能力類別，涵蓋3D空間推理、模式識別與匹配、多步推理、策略規劃。 20個域內游戲用于訓練和測試，而10個域外游戲不參與訓練，用于測試模型在未見游戲場景下的泛化能力。

核心發現
Game-RL可提升VLM的通用推理
在GameQA上使用GRPO訓練， 4個開源VLM在7個完全域外的通用視覺語言推理基準上均取得提升（Qwen2.5-VL-7B平均提升2.33%），展現出跨領域泛化，如表1 。

表1：通用視覺語言推理基準上的評測結果

訓練效果
GameQA匹敵幾何數據集
研究團隊用GameQA和幾何與圖表推理數據集進行對比訓練，發現GameQA可與之匹敵。
如表2 ，盡管訓練數據量更少且領域不匹配，但GameQA訓的模型在通用基準上總體表現很有競爭力。而且在MathVista與MathVerse這兩個和幾何與函數推理有關的基準上， Game竟能匹敵更「對口」的幾何推理數據訓練。
這表明游戲中的認知多樣性和推理復雜性，具有通用性和遷移能力。

表2：對比訓練， 5K GameQA樣本 vs. 8K MAVIS（幾何與函數視覺推理）vs. 8K Multimodal-Open-R1（以幾何推理為主）vs. 8K MultiMath（綜合的數學領域多模態推理）， GameQA訓練的模型總體很有競爭力，實驗也顯示混合訓練（MultiMath中加入GameQA數據）能助力模型提得更多。

Scaling Effect
訓練數據量和游戲個數的影響

數據量的Scaling Effect：加大訓練的GameQA數據量至20K ，實驗顯示，模型在通用推理基準上的表現總體呈持續提升，如圖4 。

圖4：訓練數據量的Scaling Effect
游戲個數的Scaling Effect：隨著訓練的游戲種類變多，域外泛化效果增強，如圖5 。

圖5：使用20種游戲的任務訓練，模型在域外通用基準上的提升優于使用4種或10種游戲的配置。

深度剖析
Game-RL后模型能力提升在哪？

為更好理解Game-RL對VLM推理能力的提升，研究團隊隨機采樣了案例進行了細致的人工分析。結果顯示， Game-RL后，模型在視覺感知和文本推理兩個方面都有提升，如圖6 。

圖6：人工定性分析得知模型的視覺感知和文本推理能力均有提升。上方的兩個餅圖分別是域外通用基準上，視覺感知和文本推理能力的變化情況，下方是視覺感知能力提升的一個案例。

結論

研究提出了Game-RL以及游戲數據合成方法Code2Logic ，構建了GameQA數據集，將VLM強化訓練領域拓展到游戲場景。
通過實驗，研究團隊驗證了Game-RL能提升VLM的通用推理。
進一步而言，也揭示了游戲場景可以提供多模態、可控、可驗證數據，具有重要價值。

推薦閱讀

上一篇：華為11月放大招！Mate80系列領銜，八款新機+平板穿戴齊上陣！

下一篇：“最美產品經理”宋紫薇，創業AI硬件首款產品曝光