登頂多模態推理榜MMMU，UCSD新方法超越GPT-5、Geminigpt5

文章圖片

文章圖片

【導讀】DreamPRM由加州大學圣地亞哥分校的研究團隊開發，在數學推理權威測評榜MMMU上獲得了第一名。
近年來，大語言模型（LLM）在推理能力上的進展顯著，其中過程獎勵模型（Process Reward Model PRM）的提出，使得模型能夠在推理鏈條的中間步驟獲得監督，從而更穩健地選擇合理的解題路徑。
這類方法在文本推理任務中已經取得了良好效果，但在擴展至多模態場景時，仍然面臨兩個突出挑戰：
分布偏移：多模態輸入空間巨大，訓練與推理分布往往存在顯著差異；數據質量不均：大規模訓練集不可避免地包含噪聲或低質量樣本，降低了有效監督信號。因此，如何在多模態推理中有效利用高質量樣本，抑制噪聲樣本的負面影響，成為亟需解決的問題。
針對于此，研究人員設計了新的訓練框架，通過雙層優化框架，將數據樣本的權重（Instance Weights）作為可學習參數，動態改變數據樣本的在訓練中的影響。
論文地址：https://arxiv.org/abs/2509.05542
代碼地址：https://github.com/coder-qicao/DreamPRM-1.5
MMMU Leaderboard
論文第一作者為博士生Qi Cao ，通訊作者為該校副教授Pengtao Xie 。

從DreamPRM到DreamPRM-1.5 ，從「領域加權」到「樣本加權」此前，研究人員提出了DreamPRM框架，通過領域級重加權（domain reweighting）的方式，在不同數據子集之間分配權重，從而提升訓練效果。
在此基礎上， DreamPRM-1.5將加權粒度進一步細化到單個訓練樣本：
高質量樣本獲得更大權重；低質量或噪聲樣本權重降低。這種實例級重加權（instance reweighting）策略，使模型能夠充分挖掘每條數據的潛在價值。

兩種方法：Instance Table和Instance Net DreamPRM1.5的兩種模型架構
為了實現「樣本級加權」，研究人員設計了兩種互補方案：
Instance Table
給每個訓練樣本一個獨立的權重參數；
靈活度高，尤其適合小規模數據集；
缺點是參數量和樣本數掛鉤，數據一大就很難撐住。
Instance Net
不直接存表，而是用一個小型MLP網絡來預測每條數據的權重；
參數量固定，不受數據規模限制；
更適合大規模訓練，泛化能力更強。
這就像兩種「學習筆記」方式：Instance Table 像是給每道題都寫一條批注；Instance Net 則像是總結出一套「看題給分」的規則。

方法核心：雙層優化（Bi-level Optimization）DreamPRM-1.5 的訓練流程采用雙層優化框架：
下層優化：利用樣本權重對 PRM 進行更新：
【登頂多模態推理榜MMMU，UCSD新方法超越GPT-5、Gemini】上層優化：在元數據集上評估推理表現，并基于反饋動態更新樣本權重：
這種設計確保了權重的學習不是靜態設定，而是由推理效果驅動、動態調整的，從而增強了模型在復雜任務中的適應性。

生成式獎勵模型，面向推理過程的打分機制在DreamPRM-1.5中，研究人員采用了生成式獎勵模型（Generative Reward Model）來對推理過程中的每一步進行評分。其核心思想是：
評分方式：模型在每一步輸出「+」或「-」，分別表示該步推理是否合理；打分機制：通過softmax計算「+」的概率，將其作為該步驟的置信度；聚合策略：對整條推理鏈的步驟分數進行聚合（平均），再與標準答案進行對比，用于指導樣本權重的更新。這一設計的優點在于，它不僅能逐步評估推理鏈條的合理性，還能為實例重加權提供更細粒度的信號。

實驗設計與實現細節模型基座：采用InternVL3-1B作為PRM的基礎模型，并在推理階段基于GPT-5-mini進行測試。設計了生成式獎勵模型的
訓練數據：從VisualPRM-400k中采樣不同規模的數據（12k、100k）分別訓練Instance Table與Instance Net
元數據集：使用MMMU-Pro的標準分割（僅使用test set數據，以避免與validation set出現重合），生成候選推理鏈作為meta set ，用于權重更新。
訓練流程：
冷啟動：先進行一次有監督微調（20k樣本），使模型能夠穩定輸出「+/-」標記；
雙層優化：在此基礎上進行100k步迭代，采用AdamW優化器與余弦學習率調度。
計算資源：單卡NVIDIA A100 ，訓練約72小時完成

實驗結果在MMMU基準上的表現研究人員在MMMU（Massive Multi-discipline Multimodal Understanding）基準上對方法進行了系統評測。
該基準涵蓋30個學科、183個子領域，題型覆蓋圖表、地圖、化學結構等多模態輸入，是目前最具挑戰性的推理測試之一。

主要結果GPT-5-mini w/ thinking（基線）：80.0%
DreamPRM-1.5（Instance Table）：84.6% （+4.6）
DreamPRM-1.5（Instance Net）：83.6% （+3.6）

對比分析No Selection：使用相同數據但不做重加權，僅有 79.1% ，驗證了實例加權的重要性；
VisualPRM：盡管使用完整的 400k 數據集，但僅達到 80.5% ，說明數據規模并不能完全彌補質量差異；
Self-consistency：經典的 test-time scaling 方法為 81.4% ，依然低于 DreamPRM-1.5 。
整體來看， DreamPRM-1.5 不僅顯著超越了基于 GPT-5-mini 的多種強基線，還在精度上超過了GPT-5（84.2%）和Gemini 2.5 Pro Deep-Think（84.0%）等頂級閉源模型。

結論與展望DreamPRM-1.5將實例級重加權引入多模態推理訓練中，通過雙層優化動態調整樣本權重，使模型能夠更好地識別和利用高質量數據。
主要貢獻體現在：
提出實例級重加權框架，突破了僅在領域級別加權的限制；設計了Instance Table 與 Instance Net兩種互補實現，兼顧小規模與大規模訓練場景；在MMMU基準上取得新的SOTA結果，超過多個閉源大模型。這一結果表明，在未來的推理模型研究中，數據質量的精細利用方式也是值得關注的重要方面。
更智能的樣本加權與過程評分方法，有望成為推動多模態推理進一步發展的關鍵方向。
參考資料：
https://arxiv.org/abs/2505.20241v2
本文來自微信公眾號“新智元” ，編輯：LRST， 36氪經授權發布。

登頂多模態推理榜MMMU，UCSD新方法超越GPT-5、Gemini

推薦閱讀

清算報告需要注明的內容有哪一些

惻隱之心仁之端也啥意思

無糖糖漿是什么東西

吃荷蘭豆的好處有哪些荷蘭豆多吃有什么壞處

oppoa95怎么關閉usb調試

艾爾登法環阿根廷區漲價了嗎阿根廷漲價分享

支付寶68元消費券怎么領

海棠花秋季的養殖方法

cs1.5怎么加人機器人快捷鍵

聚乙烯粉料潮濕易交聯嗎

去盧旺達旅游花多少錢，去迪拜旅游一次要多少錢

建成房屋如何挖地下室

我買了堅果手機，感覺系統好像沒有過度動畫

保定在哪里捐獻血小板,他又沖回機采室捐獻血小板

麥昆小白鞋黃斑怎么去

公共營養師成績查詢，國家公共營養師好考么公共的和私人的有什么區別