高考數學斬獲139分！小米7B模型比肩Qwen3-235B、OpenAI o3_openai|小米

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
機器之心編輯部
上上周的 2025 高考已經落下了帷幕！在人工智能領域，各家大模型向數學卷發起了挑戰。
在機器之心的測試中，七個大模型在「2025 年數學新課標 I 卷」中的成績是這樣的：Gemini 2.5 Pro 考了 145 分，位列第一；Doubao 和 DeepSeek R1 以 144 分緊隨其后，并列第二；o3 和 Qwen3 也僅有一分之差，分別排在第三和第四。受解答題的「拖累」， hunyuan-t1-latest 和文心 X1 Turbo 的總成績排到了最后兩名。
其實，向今年數學卷發起挑戰的大模型還有其他家，比如 Xiaomi MiMo-VL ，一個只有 7B 參數的小模型。
該模型同樣挑戰了 2025 年數學新課標 I 卷，結果顯示，總分 139 分，與 Qwen3-235B 分數相同，并只比 OpenAI o3 低一分。
并且，相較于同樣 7B 參數的多模態大模型 Qwen2.5-VL-7B ， MiMo-VL 整整高出了 56 分。

MiMo-VL-7B 和 Qwen2.5-VL-7B 是通過上傳題目截圖的形式針對多模態大模型進行評測，其余均是輸入文本 latex 進行的評測；不做 System Prompt 引導，不開啟聯網搜索，直接輸出結果。
我們接下來一一看 14 道客觀題（總計 73 分）、5 道解答題（總計 77 分）的具體答題結果。
其中， MiMo-VL 在單選題中得到 35 分（總分 40）。

MiMo-VL 在多選題中得到滿分（18 分）。

MiMo-VL 在填空題中同樣得到滿分（15 分）。
【高考數學斬獲139分！小米7B模型比肩Qwen3-235B、OpenAI o3】
MiMo-VL 在解答題中得到了 71 分，位列第 5 ，超越了 hunyuan-t1-latest、文心 X1 Turbo 。

查看詳細測評截圖以及答題情況，請移步：https://rwgi1pvz1gm.feishu.cn/docx/Z8dNdScFdopPwnxMJxfcnVpnnwh
比肩 Qwen3-235B、o3
7B 小模型如何做到？
今年 4 月 30 日，小米宣布開源了首個專注于推理的大模型「Xiaomi MiMo」，推理能力全面提升。
在數學推理（AIME 24-25）和代碼競賽（LiveCodeBench v5）公開測評集上， MiMo 僅用 7B 的參數規模，超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規模的開源推理模型 QwQ-32B-Preview 。
一個月后，該模型經過持續的 RL 訓練，推理與通用能力再次大幅提升。在多個數學代碼競賽中，新版本模型 MiMo-7B-RL-0530 已經與最強開源推理模型 DeepSeek R1 和 OpenAI 閉源推理模型 o1、o3-mini 相差無幾。

同一時間， MiMo-VL 作為 MiMo-7B 的后續版本推出，不僅在圖片、視頻、語言的通用問答和理解推理等多個任務上大幅領先同尺寸標桿多模態模型 Qwen2.5-VL-7B ，還在 GUI Grounding 任務上比肩專用模型。

MiMo-VL 保持了 MiMo-7B 的純文本推理能力，并在多模態推理任務上，僅用 7B 參數，在 OlympiadBench 以及 MathVision、MathVerse 等多個數學競賽中大幅領先 10 倍參數大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview ，也超越閉源模型 GPT-4o 。

在評估真實用戶體驗的內部大模型競技場中， MiMo-VL-7B 同樣超越了 GPT-4o ，成為開源模型第一。

視覺理解能力展示。
從技術層面來看， MiMo-VL-7B 全面的視覺感知能力得益于高質量的預訓練數據以及創新的混合在線強化學習算法（Mixed On-policy Reinforcement Learning ， MORL）。
一方面收集、清洗、合成了高質量的預訓練多模態數據，涵蓋圖片 - 文本對、視頻 - 文本對、GUI 操作序列等數據類型，總計 2.4T tokens 。通過分階段調整不同類型數據的比例，強化長程多模態推理的能力。
另一方面，混合文本推理、多模態感知 + 推理、RLHF 等反饋信號，并通過在線強化學習算法穩定加速訓練，全方位提升模型推理、感知性能和用戶體驗。

框架概覽。
目前， MiMo-VL-7B 的技術報告、模型權重和評估框架均已開源。