全球開源大模型杭州霸榜被終結,上海Minimax M2發布即爆單

全球開源大模型杭州霸榜被終結,上海Minimax M2發布即爆單

文章圖片

全球開源大模型杭州霸榜被終結,上海Minimax M2發布即爆單

文章圖片

全球開源大模型杭州霸榜被終結,上海Minimax M2發布即爆單

文章圖片

全球開源大模型杭州霸榜被終結,上海Minimax M2發布即爆單

文章圖片

全球開源大模型杭州霸榜被終結,上海Minimax M2發布即爆單

文章圖片

全球開源大模型杭州霸榜被終結,上海Minimax M2發布即爆單

文章圖片

全球開源大模型杭州霸榜被終結,上海Minimax M2發布即爆單

文章圖片

全球開源大模型杭州霸榜被終結,上海Minimax M2發布即爆單

文章圖片

全球開源大模型杭州霸榜被終結,上海Minimax M2發布即爆單

文章圖片

全球開源大模型杭州霸榜被終結,上海Minimax M2發布即爆單

克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
開源模型王座再次易主 , 依舊是國產模型!
不過之前霸榜的DeepSeek和Qwen來自杭州 , 現在變成上海的Minimax了 。
在第三方評測機構Artificial Analysis的測試中 , Minimax M2以61分獲得了開源模型第一 , 緊隨Claude 4.5 Sonnet 。

官方介紹 , Minimax M2專為智能體和編程而生 , 編程能力和Agent表現出眾 。
而且經濟高效 , 推理速度是Claude 3.5 Sonnet的兩倍 , API價格卻只有8% 。
Minimax表示 , 智能水平、速度和成本在過去被視為“不可能三角” , 但隨著M2的出世 , 這個三角被打破了 。
目前 , M2的完整模型權重已經開源 , 采用MIT協議 , 在線Agent平臺和API也限時免費 。

8%成本實現Claude級水平Minmax M2是一個稀疏度較高的MoE模型 , 總參數量230B , 激活參數量僅有10B 。
網友表示10B的激活參數運行起來會非常快 , 如果配上Cerebras或者Groq這樣的推理加速平臺 , 有望跑到每秒上千Token 。

另一個特色是采用了交錯的思維格式 , 使得模型能夠規劃和驗證跨多個對話的操作步驟 , 這對于Agent推理至關重要 。
如開頭介紹 , Minimax官方將M2定義為一個專為智能體和編程而生的模型 。
它專為端到端開發工作流程而構建 , 而且表現出對復雜、長鏈工具調用任務的出色規劃和穩定執行能力 , 支持Shell、瀏覽器、Python代碼解釋器和各種MCP工具的調用 。
在Agent最關鍵的三個能力——編程能力、工具使用能力和深度搜索能力上 , M2在工具使用和深度搜索方面上都不遜于海外頂尖模型 , 編程能力也在國內名列前茅 。

綜合表現上 , M2在Artificial Analysis的測試中 , 獲得了總排名第五、開源第一的成績 。
該測試使用了10個熱門數據集 , 包括MMLU Pro、GPQA Diamond、人類最后測試、LiveCodeBench等 。

而M2的定價是0.3美元/2.1人民幣每百萬輸入Token , 1.2美元/8.4人民幣每百萬輸出Token , 只要Claude 3.5 Sonnet的8% 。
以Artificial Analysis的成績為基準 , Minimax繪制了一張圖來比較各大模型性價比(橫軸越向右成本越低) 。

在線推理服務的速度則可達每秒100Token , Minimax也畫了一張圖體現以速度衡量的性價比 。

同時 , Minimax團隊還針對智能體、全站開發和Terminal Use三項任務對M2和其他模型進行了一對一比拼 。
結果M2相比于Claude Sonnet 4.5、GLM 4.6、Kimi-K2以及DeepSeek V3.2均有極高的Win+Tie比例 , 同時成本非常低廉 。

為了更直觀地體現M2的Agent能力 , Minimax已經把M2部署到了Agent平臺 , 限時免費使用 , 按官方說法 , 免費期直到服務器扛不住為止 。

同時在該平臺上 , 也展示了許多Minimax Agent的現成作品 。
Minimax Agent:能寫程序 , 還會做PPT利用Minimax的Agent平臺 , 可以寫出各式各樣的網頁或在線應用 。

當然像很多經典游戲 , 也都能用它在Web環境當中復刻并直接部署 。

甚至有網友創作的在線五子棋游戲平臺 , 不僅有游戲本體 , 還引入了在線對戰、觀戰、在線聊天 , 甚至是用戶注冊等功能 。

除了編程 , 也可以生成各種主題的調研報告或者PPT 。

在X上 , 也有網友展示了自己用M2 Agent編程的實戰成果 , 僅通過三輪反饋就完成了一個足球小游戲的制作 。

可以說效果非常不錯 。
模型表現之外 , M2使用的注意力機制 , 也引發了網友們的討論 。
混合注意力vs全注意力有網友從vllm的代碼當中看出了M2的更多技術細節 , 表示M2采用類似GPT-OSS的全注意力和滑動窗口注意力(SWA)的混合機制 ,

不過Minimax NLP負責人指正 , 表示一開始確實想在預訓練階段引入SWA , 但發現會造成性能損失 , 所以最后使用的是全注意力 。

Falcon團隊的技術人員看了之后表示 , 他們在訓練模型的時候也發現了同樣的現象 , SWA混合注意力會降低模型性能 , 這和一些論文的研究不符 。

在部分論文和實踐中 , SWA在提升效率的同時可以保持性能 , 如Mistral和谷歌Gemma模型的相關研究均支持此觀點 。
但Minimax的實際測試顯示其在長程依賴任務上存在局限 。

同時 , M2也沒有采用Lightning Attention(線性注意力的一種變體) , 原因也是因為性能損失 。

同樣與之相反 , 有論文主張線性注意力在長序列任務中更具優勢 。
到底哪種路線更優 , 可能還是要看具體需求 , 但至少從M2的表現上看 , Minimax選擇的的確是一種適合自己的方式 。
Agent平臺:https://agent.minimax.ioHugging Face:https://huggingface.co/MiniMaxAI/MiniMax-M2參考鏈接:[1
https://www.minimax.io/news/minimax-m2[2
https://venturebeat.com/ai/minimax-m2-is-the-new-king-of-open-source-llms-especially-for-agentic-tool[3
https://x.com/jessi_cata/status/1982936050256490968[4
https://x.com/JingweiZuo/status/1982822979030692356
— 完 —
量子位 QbitAI
【全球開源大模型杭州霸榜被終結,上海Minimax M2發布即爆單】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀