全球開源大模型杭州霸榜被終結，上海Minimax M2發布即爆單

2026-02-21 杭州上海市編程 minimax

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

克雷西發自凹非寺
量子位 | 公眾號 QbitAI
開源模型王座再次易主，依舊是國產模型！
不過之前霸榜的DeepSeek和Qwen來自杭州，現在變成上海的Minimax了。
在第三方評測機構Artificial Analysis的測試中， Minimax M2以61分獲得了開源模型第一，緊隨Claude 4.5 Sonnet 。

官方介紹， Minimax M2專為智能體和編程而生，編程能力和Agent表現出眾。
而且經濟高效，推理速度是Claude 3.5 Sonnet的兩倍， API價格卻只有8% 。
Minimax表示，智能水平、速度和成本在過去被視為“不可能三角” ，但隨著M2的出世，這個三角被打破了。
目前， M2的完整模型權重已經開源，采用MIT協議，在線Agent平臺和API也限時免費。

8%成本實現Claude級水平Minmax M2是一個稀疏度較高的MoE模型，總參數量230B ，激活參數量僅有10B 。
網友表示10B的激活參數運行起來會非常快，如果配上Cerebras或者Groq這樣的推理加速平臺，有望跑到每秒上千Token 。

另一個特色是采用了交錯的思維格式，使得模型能夠規劃和驗證跨多個對話的操作步驟，這對于Agent推理至關重要。
如開頭介紹， Minimax官方將M2定義為一個專為智能體和編程而生的模型。
它專為端到端開發工作流程而構建，而且表現出對復雜、長鏈工具調用任務的出色規劃和穩定執行能力，支持Shell、瀏覽器、Python代碼解釋器和各種MCP工具的調用。
在Agent最關鍵的三個能力——編程能力、工具使用能力和深度搜索能力上， M2在工具使用和深度搜索方面上都不遜于海外頂尖模型，編程能力也在國內名列前茅。

綜合表現上， M2在Artificial Analysis的測試中，獲得了總排名第五、開源第一的成績。
該測試使用了10個熱門數據集，包括MMLU Pro、GPQA Diamond、人類最后測試、LiveCodeBench等。

而M2的定價是0.3美元/2.1人民幣每百萬輸入Token ， 1.2美元/8.4人民幣每百萬輸出Token ，只要Claude 3.5 Sonnet的8% 。
以Artificial Analysis的成績為基準， Minimax繪制了一張圖來比較各大模型性價比（橫軸越向右成本越低）。

在線推理服務的速度則可達每秒100Token ， Minimax也畫了一張圖體現以速度衡量的性價比。

同時， Minimax團隊還針對智能體、全站開發和Terminal Use三項任務對M2和其他模型進行了一對一比拼。
結果M2相比于Claude Sonnet 4.5、GLM 4.6、Kimi-K2以及DeepSeek V3.2均有極高的Win+Tie比例，同時成本非常低廉。

為了更直觀地體現M2的Agent能力， Minimax已經把M2部署到了Agent平臺，限時免費使用，按官方說法，免費期直到服務器扛不住為止。

同時在該平臺上，也展示了許多Minimax Agent的現成作品。
Minimax Agent：能寫程序，還會做PPT利用Minimax的Agent平臺，可以寫出各式各樣的網頁或在線應用。

當然像很多經典游戲，也都能用它在Web環境當中復刻并直接部署。

甚至有網友創作的在線五子棋游戲平臺，不僅有游戲本體，還引入了在線對戰、觀戰、在線聊天，甚至是用戶注冊等功能。

除了編程，也可以生成各種主題的調研報告或者PPT 。

在X上，也有網友展示了自己用M2 Agent編程的實戰成果，僅通過三輪反饋就完成了一個足球小游戲的制作。

可以說效果非常不錯。
模型表現之外， M2使用的注意力機制，也引發了網友們的討論。
混合注意力vs全注意力有網友從vllm的代碼當中看出了M2的更多技術細節，表示M2采用類似GPT-OSS的全注意力和滑動窗口注意力（SWA）的混合機制，

不過Minimax NLP負責人指正，表示一開始確實想在預訓練階段引入SWA ，但發現會造成性能損失，所以最后使用的是全注意力。

Falcon團隊的技術人員看了之后表示，他們在訓練模型的時候也發現了同樣的現象， SWA混合注意力會降低模型性能，這和一些論文的研究不符。

在部分論文和實踐中， SWA在提升效率的同時可以保持性能，如Mistral和谷歌Gemma模型的相關研究均支持此觀點。
但Minimax的實際測試顯示其在長程依賴任務上存在局限。

同時， M2也沒有采用Lightning Attention（線性注意力的一種變體），原因也是因為性能損失。

同樣與之相反，有論文主張線性注意力在長序列任務中更具優勢。
到底哪種路線更優，可能還是要看具體需求，但至少從M2的表現上看， Minimax選擇的的確是一種適合自己的方式。
Agent平臺：https://agent.minimax.ioHugging Face：https://huggingface.co/MiniMaxAI/MiniMax-M2參考鏈接：[1
https://www.minimax.io/news/minimax-m2[2
https://venturebeat.com/ai/minimax-m2-is-the-new-king-of-open-source-llms-especially-for-agentic-tool[3
https://x.com/jessi_cata/status/1982936050256490968[4
https://x.com/JingweiZuo/status/1982822979030692356
— 完 —
量子位 QbitAI
【全球開源大模型杭州霸榜被終結，上海Minimax M2發布即爆單】關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：OPPO Pad5 柔光版體驗：好看的屏幕是基本，更輕更薄更合理的基礎款

下一篇：超越GoPro 2025年Q3大疆運動相機全球市占第一達66%