突發！小米開源MiMo大模型，性能超越OpenAI

2026-02-26 人工智能數學小米科技 openai

文章圖片

文章圖片

文章圖片

前腳阿里剛開源超強的混合推理模型Qwen3 ，后腳小米也來放了個大招！
小米公司正式發布并宣布開源其首個專注于提升模型推理（Reasoning）能力的大型語言模型Xiaomi MiMo 。這款模型旨在通過技術創新，突破現有預訓練模型的潛在瓶頸，深度激發AI的思考與解決問題能力。
小米方面表示，開發MiMo的核心出發點在于探索如何在當前大模型技術基礎上，有效提升其進行復雜邏輯推理、數學運算和代碼生成等高級認知任務的能力。通過聯動預訓練與后訓練階段的優化， MiMo力求在推理性能上實現顯著飛躍。

基準測試表現突出：7B模型超越更大競爭對手
根據小米公布的測試數據， Xiaomi MiMo在多個衡量模型推理能力的公開基準測試中展現出超越同類甚至更大規模模型的優異性能。

在考察數學推理水平的AIME 24-25評測集和評估代碼競賽能力的LiveCodeBench v5評測集上，參數規模為7B的MiMo模型，其表現均超過了OpenAI的閉源推理模型o1-mini ，以及參數量高達32B的阿里開源推理模型QwQ-32B-Preview 。這一結果表明， MiMo在推理效率和效果上達到了行業領先水平。

此外，研究顯示MiMo-7B在強化學習（RL）領域展現出顯著的潛力優勢。與當前業內廣泛用作RL起始模型的DeepSeek-R1-Distill-7B和Qwen2.5-32B（32B參數）相比，即使在相同RL數據條件下進行訓練， MiMo-7B在數學與代碼領域的RL潛力評估中依然表現更優。
技術解析：預訓練與后訓練的協同創新
MiMo之所以能在推理能力上取得突破，得益于小米大模型Core團隊在模型設計與訓練流程上的多項技術創新：

預訓練階段：強化推理模式學習。團隊在預訓練數據上著重挖掘富推理語料，并創新性地合成了約200B tokens的高質量推理數據，讓模型充分接觸并學習各種推理邏輯。訓練過程采用三階段訓練模式，逐步提升難度，累計訓練數據量達到25T tokens 。

后訓練階段：構建高效穩定強化學習系統。在此階段，小米團隊引入了創新的RL算法和框架。算法層面，提出了Test Difficulty Driven Reward機制，旨在緩解困難推理問題中的獎勵稀疏性，并引入Easy Data Re-Sampling策略以提高訓練穩定性。框架層面，通過設計的Seamless Rollout系統，顯著提升了RL訓練效率（加速 2.29 倍）和驗證效率（加速 1.96 倍）。
上述技術細節已在小米公開的技術報告中詳細闡述。
小米大模型Core團隊首個重要對外成果
【突發！小米開源MiMo大模型，性能超越OpenAI】為推動人工智能社區在推理能力方向的共同發展，小米已將Xiaomi MiMo-7B的四個變體模型全部開源，托管于HuggingFace平臺。全球的開發者和研究人員現可免費獲取并使用這些模型。

據了解， Xiaomi MiMo是小米新近成立的「小米大模型Core團隊」的首個重要對外成果。該團隊表示，盡管當前大模型技術發展迅速，但實現通用人工智能（AGI）仍然是一個長期的目標與挑戰。團隊將持續秉持務實創新的精神，探索人工智能的前沿領域，致力于通過技術突破不斷拓展智能的邊界。
小米模型這么強，能不能讓小愛同學厲害點?。 ?

推薦閱讀

上一篇：1529元，剛發布的這7620mAh新機，太強了

下一篇：國補后 2899 元起，一加 13T 開售 10 分鐘銷售額突破 2 億元