同一天開源新模型,一推理一編程,MiniMax和月之暗面開卷了

同一天開源新模型,一推理一編程,MiniMax和月之暗面開卷了

文章圖片

同一天開源新模型,一推理一編程,MiniMax和月之暗面開卷了

文章圖片

同一天開源新模型,一推理一編程,MiniMax和月之暗面開卷了

文章圖片

同一天開源新模型,一推理一編程,MiniMax和月之暗面開卷了

文章圖片

同一天開源新模型,一推理一編程,MiniMax和月之暗面開卷了

文章圖片

同一天開源新模型,一推理一編程,MiniMax和月之暗面開卷了

文章圖片

同一天開源新模型,一推理一編程,MiniMax和月之暗面開卷了

文章圖片

【同一天開源新模型,一推理一編程,MiniMax和月之暗面開卷了】同一天開源新模型,一推理一編程,MiniMax和月之暗面開卷了

文章圖片

同一天開源新模型,一推理一編程,MiniMax和月之暗面開卷了

文章圖片

機器之心報道
機器之心編輯部
同一天 , 國內大模型廠商扎堆發起了新模型 。
AI「六小龍」中的 MiniMax 和月之暗面各自公布了開源新成果 。
其中 , MiniMax 啟動了「MiniMax Week」 , 并在第一天開源了其最新的長上下文推理 LLM——MiniMax-M1 。 該模型支持全球最長的上下文窗口 , 包括 100 萬 tokens 輸入、8 萬 tokens 輸出 。
不僅如此 , MiniMax-M1 還實現了開源模型中最強的智能體工具使用能力 。 強化學習效率也驚人 , 僅僅需要 53.47 萬美元即可完成訓練 。
目前 , MiniMax-M1 已經集成到了 MiniMax Chat 中 。

如此強大的 MiniMax-M1 有哪些亮點功能呢?首先 , 它支持 UI 組件聚焦(Spotlight) , 只需輸入提示詞 , 立即就可以構建一個具有基于畫布的動畫粒子背景的 HTML 頁面 。

其次 , MiniMax-M1 支持交互式應用程序 。 比如要求它構建一個打字速度測試 , 很快就生成一個干凈、實用的 Web 應用程序 , 可以實時跟蹤 WPM(每分鐘字數) 。 不需要插件 , 也不需要設置 。

此外 , MiniMax-M1 的可視化效果很強 。 比如輸入提示詞:創建具有基于畫布的動畫粒子背景的 HTML 頁面 , 顆粒應平穩移動并在靠近時連接 , 在畫布上添加中心標題文本 。 (Create an HTML page with a canvas-based animated particle background. The particles should move smoothly and connect when close. Add a central heading text over the canvas.)

最后 , MiniMax-M1 可以玩游戲 。 比如輸入提示詞:創建迷宮生成器和尋路可視化工具 , 隨機生成一個迷宮 , 并可視化 A * 算法逐步解決它 。 使用畫布和動畫 , 使其具有視覺吸引力 。 (Create a maze generator and pathfinding visualizer. Randomly generate a maze and visualize A* algorithm solving it step by step. Use canvas and animations. Make it visually appealing.)

評論區的網友對 MiniMax-M1 也是翹首以盼 , 如今終于放出來了 。

與此同時 , 月之暗面發布了強大的開源編程大模型 ——Kimi-Dev-72B 。
在所有開源模型中 , Kimi-Dev-72B 在代碼生成評估基準 SWE-bench Verified 中取得了全新的 SOTA 分數 。
目前 , Kimi-Dev-72B 已向社區開放 , 以供進一步研發 , 主要資源包括了模型權重、源代碼和技術報告(即將發布) 。 月之暗面希望開發者和組織能夠探索、集成和擴展該模型的應用 。

  • Hugging Face 地址:https://huggingface.co/moonshotai/Kimi-Dev-72B
  • GitHub 地址:https://github.com/MoonshotAI/Kimi-Dev
  • 博客地址:https://moonshotai.github.io/Kimi-Dev/
面對同一天發布的這兩個大模型 , 已經有人進行了代碼實測 PK 。
一位推特用戶使用 three.js 生成拆煙囪 demo , 結果顯示 , MiniMax-M1-80K 一把過 , 而 Kimi-Dev-72B 生成的代碼需要使用 Claude-4-Sonnet 修復 3 個 bug 才能運行 。

圖源:https://x.com/karminski3/status/1934791130165727445
我們接下來介紹兩款開源大模型的技術細節 。
MiniMax-M1

  • Hugging Face:https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094
  • GitHub 地址:https://github.com/MiniMax-AI/MiniMax-M1
  • 技術報告:https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf
  • 體驗地址:https://chat.minimax.io/
MiniMax-M1 是全球首款開源權重的大規模混合注意力推理模型 , 由混合專家(MoE)架構與閃電注意力機制共同驅動 。 該模型基于此前的 MiniMax-Text-01 模型開發而來 , 總參數量為 456 B , 每個 token 激活 45.9 B 參數 。
與 MiniMax-Text-01 一致 , M1 模型原生支持 100 萬 token 的上下文長度 , 是 DeepSeek R1 上下文規模的 8 倍 。

此外 , MiniMax-M1 中采用的閃電注意力機制實現了測試時計算成本的高效擴展 —— 例如 , 在生成長度為 10 萬 token 時 , M1 所消耗的浮點運算次數(FLOPs)僅為 DeepSeek R1 的 25% 。 這些特性使得 M1 尤其適用于需要處理長輸入并進行深度思考的復雜任務 。
MiniMax-M1 在從傳統數學推理到基于沙盒的真實世界軟件工程環境等各種問題上 , 均采用了大規模強化學習(RL)進行訓練 。 MiniMax 為 M1 開發了一個高效的強化學習擴展框架 , 重點突出以下兩個方面:
1. 提出了一種名為 CISPO 的新穎算法 , 該算法通過裁剪重要性采樣權重而非 token 更新來優化模型 。在 AIME 的實驗中 , 研究團隊發現這比包括字節近期提出的 DAPO 等強化學習算法收斂性能快了一倍 , 顯著的優于 DeepSeek 早期使用的 GRPO 。

2. MiniMax 的混合注意力設計天然地提升了強化學習的效率 , 在此過程中 , 解決了在混合架構下擴展強化學習時遇到的獨特挑戰 。
整個強化學習階段只用到 512 塊 H800 三周的時間 , 租賃成本只有 53.47 萬美金 , 這比一開始的預期少了一個數量級 。 MiniMax 訓練了兩個版本的 MiniMax-M1 模型 , 分別具有 40k 和 80k 的思考預算 。
在標準基準測試上的實驗表明 , 該模型在性能上超越了其他強大的開源權重模型 , 如原始的 DeepSeek-R1 和 Qwen3-235B , 尤其在復雜的軟件工程、工具使用和長上下文任務上表現突出 。

對領先的商業模型與開源模型在競賽級數學、編程、軟件工程、智能體工具使用以及長上下文理解等任務中的基準性能進行對比評估 。 其中 , MiniMax-M1 結果使用其 MiniMax-M1-80k 模型 。
MiniMax 在 17 個業內主流評測集上對 M1 模型進行了全面評估 , 結果顯示 , M1 在軟件工程、長上下文處理和工具使用等面向生產力的復雜場景中 , 擁有顯著優勢 。

  • MiniMax-M1-40k 和 MiniMax-M1-80k 在 SWE-bench 驗證基準上分別取得 55.6% 和 56.0% 的優異成績 , 這一成績略遜于 DeepSeek-R1-0528 的 57.6% , 但顯著超越其他開源權重模型 。
  • 依托其百萬級上下文窗口 , M1 系列在長上下文理解任務中表現卓越 , 不僅全面超越所有開源權重模型 , 甚至超越 OpenAI o3 和 Claude 4 Opus , 全球排名第二 , 僅以微弱差距落后于 Gemini 2.5 Pro 。
  • 在代理工具使用場景(TAU-bench)中 , MiniMax-M1-40k 同樣領跑所有開源權重模型 , 并戰勝 Gemini-2.5 Pro 。
值得注意的是 , MiniMax-M1-80k 在大多數基準測試中始終優于 MiniMax-M1-40k , 這充分驗證了擴展測試時計算資源的有效性 。
MiniMax 還采取了極具誠意的開放策略:新模型在 MiniMax APP 和 Web 上都保持不限量免費使用 , 并以業內最低的價格在官網提供 API 。

前面兩種模式都比 DeepSeek-R1 性價比更高 , 后面一種模式 DeepSeek 模型不支持 。
發布 M1 只是一個開始 。 據 MiniMax 透露 , 在接下來的數個工作日內 , 還將公布一系列令人期待的技術更新 , 敬請關注 。
Kimi-Dev-72B
作為一個強大的開源 LLM , Kimi-Dev-72B 具有以下亮點:
  • Kimi-Dev-72B 在 SWE-bench Verified 上取得了 60.4% 的成績 , 在開源模型中創下了新的 SOTA 紀錄 。
  • Kimi-Dev-72B 通過大規模強化學習進行優化 。 它能夠自主在 Docker 中修補真實代碼倉庫 , 并且只有在整個測試套件通過的情況下才會獲得獎勵 。 這確保了其提供的解決方案是正確且穩健的 , 符合現實世界中的開發標準 。
  • Kimi-Dev-72B 可在 Hugging Face 和 GitHub 上下載和部署 。
下圖為 SWE-bench Verified 基準上 , Kimi-Dev-72B 與其他開源模型的性能比較 。

下圖為 SWE-bench Verified 基準上 , Kimi-Dev-72B 與閉源模型的性能比較 。

以下是 Kimi-Dev-72B 的設計理念與技術細節 , 包括 BugFixer 與 TestWriter 的協作機制、中期訓練、強化學習以及測試階段自博弈等內容 。
BugFixer 與 TestWriter 的協作機制
一個成功的漏洞修復補丁 , 應該能夠通過準確反映該漏洞的單元測試 。 同時 , 一個成功的測試用例在復現漏洞時應能觸發斷言錯誤 , 并且在正確的補丁應用到代碼庫后能夠通過測試 。 這就形成了 BugFixer 和 TestWriter 的互補角色:BugFixer 負責修復問題 , TestWriter 負責驗證和復現問題 。 一個足夠強大的編程 LLM 應當在這兩方面都表現出色 。
BugFixer 和 TestWriter 遵循著相似的流程:它們都需要先找到正確的待編輯文件 , 然后執行相應的代碼更新 —— 無論是修正脆弱的代碼實現(BugFixer 的任務) , 還是插入單元測試函數(TestWriter 的任務) 。
因此 , 為了同時支持這兩個角色 , Kimi-Dev-72B 采用了一個統一的極簡框架 , 該框架僅包含兩個階段:(1) 文件定位 (File Localization) 和 (2) 代碼編輯 (Code Edits) 。 BugFixer 與 TestWriter 的這種協作機制的設計 , 為 Kimi-Dev-72B 的整體架構奠定了基礎
中期訓練
為了提升 Kimi-Dev-72B 作為 BugFixer 和 TestWriter 的基礎能力 , 使用了約 1500 億個 token 的高質量真實世界數據對其進行了中期訓練 。 以 Qwen 2.5-72B 作為基礎模型 , 收集了數百萬個 GitHub 上的問題報告 (issues) 和拉取請求中的代碼提交記錄 (PR commits) 作為中期訓練數據集 。
該數據配方經過精心設計 , 旨在讓 Kimi-Dev-72B 學習人類開發者如何根據 GitHub 問題進行推理、構建代碼修復方案以及編寫單元測試 。 此外還進行了嚴格的數據去污染處理 , 以排除任何來自 SWE-bench Verified 測試集的代碼倉庫 。
中期訓練充分增強了基礎模型在實用性錯誤修復和單元測試方面的知識 , 使其成為后續強化學習(RL)訓練的更佳起點 。
大規模強化學習
通過適當的中期訓練和監督微調 (SFT) , Kimi-Dev-72B 在文件定位 (File Localization) 方面已取得了優異的性能 。 因此 , 強化學習 (RL) 階段專注于提升其代碼編輯 (Code Edits) 的能力 。
月之暗面采用了一種在 Kimi k1.5 中描述過的策略優化方法 , 該方法已在推理任務中展現出卓越成果 。 針對 SWE-bench Verified 測試基準 , 重點介紹以下三項關鍵設計:
  • 僅基于結果的獎勵機制(Outcome-based Reward Only) 。 只采用 Docker 最終執行結果(0 或 1)作為獎勵信號 , 在訓練過程中不使用任何基于格式或過程的獎勵 。 這意味著 , 只有當模型生成的補丁能夠使所有測試用例通過時 , 才會獲得獎勵 , 從而確保模型關注于實際有效的代碼修復結果 。
  • 高效的提示集(Efficient Prompt Set) 。 過濾掉了模型在多樣本評估中成功率為零的提示(即過于困難的任務) , 從而能夠更有效地利用大批量數據進行訓練 。 同時應用了課程學習策略 , 即逐步引入新提示 , 漸進式地增加任務難度 。
  • 正面范例強化(Positive Example Reinforcement) 。 在訓練的最后階段 , 將先前迭代中近期成功的樣本重新加入到當前的訓練批次中 。 這有助于模型鞏固成功的模式并提升性能 。
Kimi-Dev-72B 通過使用高度并行、強大且高效的內部智能體基礎設施 , 從可擴展數量的問題解決任務訓練中受益匪淺 。

測試時自博弈(Test-time Self-Play)
經過強化學習后 , Kimi-Dev-72B 能夠同時掌握 BugFixer 和 TestWriter 的角色 。 在測試過程中 , 該模型會采用自博弈機制 , 協調自身 Bug 修復和測試編寫的能力 。

BugFixer 和 TestWriter 之間的測試時 self-play 。
每個問題最多可以生成 40 個補丁候選和 40 個測試候?。 ò湊氈曜?Agentless 設置) , 可以觀察到測試時自博弈的擴展效應 。
下一步計劃
最后 , 月之暗面表示 , 他們正在積極研究和開發擴展 Kimi-Dev-72B 功能的方法 , 并探索更復雜的軟件工程任務 。 未來的迭代將側重于與流行的 IDE、版本控制系統以及 CI/CD 流水線進行更深入的集成 , 使 Kimi-Dev-72B 更加無縫地融入開發人員的工作流程 。
在持續改進 Kimi-Dev-72B 的同時 , 月之暗面還將進行嚴謹的紅隊測試 , 并向社區發布更強大的模型 。

    推薦閱讀