登頂多模態推理榜MMMU,UCSD新方法超越GPT-5、Gemini

登頂多模態推理榜MMMU,UCSD新方法超越GPT-5、Gemini

文章圖片

登頂多模態推理榜MMMU,UCSD新方法超越GPT-5、Gemini

文章圖片


【導讀】DreamPRM由加州大學圣地亞哥分校的研究團隊開發 , 在數學推理權威測評榜MMMU上獲得了第一名 。
近年來 , 大語言模型(LLM)在推理能力上的進展顯著 , 其中過程獎勵模型(Process Reward Model PRM)的提出 , 使得模型能夠在推理鏈條的中間步驟獲得監督 , 從而更穩健地選擇合理的解題路徑 。
這類方法在文本推理任務中已經取得了良好效果 , 但在擴展至多模態場景時 , 仍然面臨兩個突出挑戰:
分布偏移:多模態輸入空間巨大 , 訓練與推理分布往往存在顯著差異; 數據質量不均:大規模訓練集不可避免地包含噪聲或低質量樣本 , 降低了有效監督信號 。因此 , 如何在多模態推理中有效利用高質量樣本 , 抑制噪聲樣本的負面影響 , 成為亟需解決的問題 。
針對于此 , 研究人員設計了新的訓練框架 , 通過雙層優化框架 , 將數據樣本的權重(Instance Weights)作為可學習參數 , 動態改變數據樣本的在訓練中的影響 。
論文地址:https://arxiv.org/abs/2509.05542
代碼地址:https://github.com/coder-qicao/DreamPRM-1.5
MMMU Leaderboard
論文 第一作者為博士生Qi Cao , 通訊作者為該校副教授Pengtao Xie 。

從DreamPRM到DreamPRM-1.5 , 從「領域加權」到「樣本加權」此前 , 研究人員提出了DreamPRM框架 , 通過領域級重加權(domain reweighting)的方式 , 在不同數據子集之間分配權重 , 從而提升訓練效果 。
在此基礎上 , DreamPRM-1.5將加權粒度進一步細化到單個訓練樣本:
高質量樣本獲得更大權重; 低質量或噪聲樣本權重降低 。這種實例級重加權(instance reweighting)策略 , 使模型能夠充分挖掘每條數據的潛在價值 。

兩種方法:Instance Table和Instance Net DreamPRM1.5的兩種模型架構
為了實現「樣本級加權」 , 研究人員設計了兩種互補方案:
Instance Table
給每個訓練樣本一個獨立的權重參數;
靈活度高 , 尤其適合小規模數據集;
缺點是參數量和樣本數掛鉤 , 數據一大就很難撐住 。
Instance Net
不直接存表 , 而是用一個小型MLP網絡來預測每條數據的權重;
參數量固定 , 不受數據規模限制;
更適合大規模訓練 , 泛化能力更強 。
這就像兩種「學習筆記」方式:Instance Table 像是給每道題都寫一條批注;Instance Net 則像是總結出一套「看題給分」的規則 。

方法核心:雙層優化(Bi-level Optimization)DreamPRM-1.5 的訓練流程采用 雙層優化框架:
下層優化:利用樣本權重對 PRM 進行更新:
【登頂多模態推理榜MMMU,UCSD新方法超越GPT-5、Gemini】上層優化:在元數據集上評估推理表現 , 并基于反饋動態更新樣本權重:
這種設計確保了權重的學習不是靜態設定 , 而是由推理效果驅動、動態調整的 , 從而增強了模型在復雜任務中的適應性 。

生成式獎勵模型 , 面向推理過程的打分機制在DreamPRM-1.5中 , 研究人員采用了生成式獎勵模型(Generative Reward Model)來對推理過程中的每一步進行評分 。 其核心思想是:
評分方式:模型在每一步輸出「+」或「-」 , 分別表示該步推理是否合理; 打分機制:通過softmax計算 「+」 的概率 , 將其作為該步驟的置信度; 聚合策略:對整條推理鏈的步驟分數進行聚合(平均) , 再與標準答案進行對比 , 用于指導樣本權重的更新 。這一設計的優點在于 , 它不僅能逐步評估推理鏈條的合理性 , 還能為實例重加權提供更細粒度的信號 。

實驗設計與實現細節模型基座:采用InternVL3-1B作為PRM的基礎模型 , 并在推理階段基于GPT-5-mini進行測試 。 設計了生成式獎勵模型的
訓練數據:從VisualPRM-400k中采樣不同規模的數據(12k、100k)分別訓練Instance Table與Instance Net
元數據集:使用MMMU-Pro的標準分割(僅使用test set數據 , 以避免與validation set出現重合) , 生成候選推理鏈作為meta set , 用于權重更新 。
訓練流程:
冷啟動:先進行一次有監督微調(20k樣本) , 使模型能夠穩定輸出「+/-」標記;
雙層優化:在此基礎上進行100k步迭代 , 采用AdamW優化器與余弦學習率調度 。
計算資源:單卡NVIDIA A100 , 訓練約72小時完成

實驗結果在MMMU基準上的表現研究人員在MMMU(Massive Multi-discipline Multimodal Understanding)基準上對方法進行了系統評測 。
該基準涵蓋30個學科、183個子領域 , 題型覆蓋圖表、地圖、化學結構等多模態輸入 , 是目前最具挑戰性的推理測試之一 。

主要結果GPT-5-mini w/ thinking(基線):80.0%
DreamPRM-1.5(Instance Table):84.6% (+4.6)
DreamPRM-1.5(Instance Net):83.6% (+3.6)

對比分析No Selection:使用相同數據但不做重加權 , 僅有 79.1% , 驗證了實例加權的重要性;
VisualPRM:盡管使用完整的 400k 數據集 , 但僅達到 80.5% , 說明數據規模并不能完全彌補質量差異;
Self-consistency:經典的 test-time scaling 方法為 81.4% , 依然低于 DreamPRM-1.5 。
整體來看 , DreamPRM-1.5 不僅顯著超越了基于 GPT-5-mini 的多種強基線 , 還在精度上超過了GPT-5(84.2%)和Gemini 2.5 Pro Deep-Think(84.0%)等頂級閉源模型 。

結論與展望DreamPRM-1.5將實例級重加權引入多模態推理訓練中 , 通過雙層優化動態調整樣本權重 , 使模型能夠更好地識別和利用高質量數據 。
主要貢獻體現在:
提出實例級重加權框架 , 突破了僅在領域級別加權的限制; 設計了Instance Table 與 Instance Net兩種互補實現 , 兼顧小規模與大規模訓練場景; 在MMMU基準上取得新的SOTA結果 , 超過多個閉源大模型 。這一結果表明 , 在未來的推理模型研究中 , 數據質量的精細利用方式也是值得關注的重要方面 。
更智能的樣本加權與過程評分方法 , 有望成為推動多模態推理進一步發展的關鍵方向 。
參考資料:
https://arxiv.org/abs/2505.20241v2
本文來自微信公眾號“新智元” , 編輯:LRST, 36氪經授權發布 。

    推薦閱讀