MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏

文章圖片

MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏
編輯:Aeneas 艾倫【新智元導讀】MiniMax M2.7刷屏海外開發者社區 , 熱度直沖榜單前列!多智能體協作+自進化能力引爆關注 , 它為何讓全球開發者集體沸騰?實測后我們發現 , 這位AI新頂流的確實至名歸 。
最近的一波震撼 , 是MiniMax M2.7帶來的 。
一經發布 , 它就在全球開發者社區引發巨大反響 。



<< 向右滑動查看下一張圖片 >>
構建一個智能體 , 只要需要Opus 1/10的價格 , 開發者直呼太香了 。

有人說 , 開源模型和閉源的差距 , 每個月都在縮小 , 前沿實驗室應該警覺了 。

就在昨天 , 它在PinchBench榜單上拿下全球第四、國產第一!

這股席卷全球開發者社區的熱度 , 和此前 M2.5 發布時如出一轍 。

在OpenRouter上 , 全球大模型的智元(Token)年化吞吐量已經突破了一千萬億 , 連續霸榜四周的 , 就是MiniMax M2.5
就在這周的GTC大會上 , 老黃高度評價了全球爆火的開源項目OpenClaw , 增速超過了Linux過去幾十年的速度 。
在這一趨勢下 , 英偉達也迅速入局 , 并聯合 OpenClaw 核心作者推出了 NemoClaw 。
老黃的背書 , 也讓OpenClaw生態瞬間成為焦點 , 原因在于 , MiniMax正是這個生態中的核心玩家 , 它是為OpenClaw運行提供底層大模型算力支持的廠商之一 。
就在GTC大會期間 , MiniMax M2.7順勢發布了 , 它的復雜任務執行和智能體協作能力 , 簡直與大會熱點完美契合 。
驚喜之處不止這些 , 它給人的第一感覺 , 簡直像一個會自我進化的團隊成員 , 能在工程和科研里自己迭代自己!
M2.7到底強在哪?值不值得你上手?
一大波新鮮熱乎的測評 , 這就出爐了!

最強Cowork Agent模型 , 來了
實測后我們發現 , 這次M2.7的版本更新 , 讓人大為驚喜 。
首先是Agent Team&Coding , 模型不再只是單打獨斗 , 而是具備原生多智能體協作能力 , 不用復雜框架也能自己分工配合 。
寫代碼這塊 , 更是肉眼可見地進化:不僅能看日志查bug、做代碼重構 , 還更懂安全 , 甚至覆蓋MLE、安卓開發等真實場景 。
數字化辦公上 , Excel、Word、PPT的體驗都非常絲滑 。
一句話總結就是 , M2.7是一個又能干活 , 又能協作 , 還挺會玩的大模型 。

多智能體協同 , 最佳Cowork Agent模型
MiniMax M2.7的一大特性就是原生的Agent Teams(多智能體協作)能力 。
在這個場景下 , 模型需要穩定錨定角色身份、主動挑戰隊友的邏輯與倫理盲區、在復雜狀態機中自主決策 , 這些全都內化為了模型的原生能力 。

可以說 , 它是當前最佳的Cowork agent模型 , 尤其擅長在多Skills交織的復雜環境中執行長鏈路任務 , 非常適配多Skills復雜環境的執行 。
為了測試這一點 , 我們讓M2.7構建了一個多Agent狼人殺模擬系統 , 所有角色均由獨立Agent扮演 , 并且能像真人一樣推理、發言和投票 , 同時還要做出一個模擬網站 , 展示游戲過程 。
這個高含金量測試 , 是一個極其復雜的工程問題 , 測試了模型的長鏈路任務規劃能力、多Agent建模能力、角色一致性、推理與博弈能力等等 , 覆蓋了指令遵循、復雜規劃、多Agent協作、長上下文記憶、編程實現等綜合能力 。
它不僅要求模型想明白 , 還要能做出來 , 這非常接近我們對下一代Cowork Agent的形態設想 。
很快 , M2.7就完成了一個狼人殺版多Agent協作系統 , 包括主持人、狼人、預言家、女巫、獵人、守衛、村民等多個Agent , 而且每個Agent都有獨立的記憶、推理和決策能力 。

不過相對而言 , 這個網頁應用的設計還是比較粗糙 。

但這正是我們想進一步驗證的:在復雜環境中 , M2.7是否能靈活調用并整合外部技能?
于是 , 我們向它提供了一些開源版的UI Skills , 測試它對「外部工具+既有系統」的整合能力 。


在學習GitHub上的Skills之后 , M2.7又新做了一個版本 , 果然 , 這次的前端設計和視覺效果大大提高 , 而底層的多Agent協作邏輯依然穩定 。


好消息是 , 上述案例中表現出的「實踐-總結Skills-激勵分享」的能力 , 也正是團隊在MaxClaw產品中打通和驗證的完整鏈路 。
隨著MiniMax龍蝦MaxClaw一并推出的 , 還有一批「專家」 , 據說專家社區里的超過一萬個「專家」都會以Skills形式開放出來 。

此前 , MiniMax官方已開源6個最重要最實用的Skills , 加上此前已經上線過上萬個「專家」 , MiniMax后續應該會把這個鏈路打通 , 從而釋放巨大的潛力!


「專家」里面最受歡迎的 , 是這個多Agent投研團隊 , 我們用它來測試一下MiniMax M2.7的多智能體協作能力 。

我們向它提問了英偉達近期的市場情緒和新聞面有哪些值得關注的點 。

任務開始后 , 多個Agent分飾不同角色 , 從各自的視角處理自己的職責范圍內的信息 。

各自完成思考后 , 先輸出各自的意見 , 給出不同視角的結論 。

最后 , 「團隊領導者」負責整合所有人的意見后 , 輸出一份包含集體智慧的完整版報告 , 比單一 Agent 輸出的觀點要更全面 。

(本段文字不構成任何投資建議)

強工程與Coding能力 , 令人驚嘆
在真實的工程場景中 , M2.7的表現堪稱優秀!
過去 , M2系列模型一直都以代碼生成能力見長 , 但其實 , 代碼能力只是它的冰山一角 。
在最新版本中 , M2.7已具備遠超代碼編寫的綜合推理能力 , 化身可自主排查生產故障的智能體 。 它不僅僅是會寫代碼 , 而是真正理解并且能獨立解決生產系統問題 。
接下來給道測試題 , 測測M2.7看日志查bug的能力 , 也大大增強 。
比如某電商系統上線一個創建訂單接口 , 但線上出現大量下單失敗 , 而我們給模型提供的信息 , 只有部分關鍵代碼 , 和一段線上日志 , 要求它分析出下單失敗的根本原因 , 以及還有哪些潛在問題 。
根據日志和代碼 , M2.7迅速分析出 , 失敗的根本原因是PriceService.get_price() 對不存在的 SKU(如 SKU-1003)返回 None , 而 create_order 函數沒有對價格進行空值檢查就直接使用 。



另外 , 我們還讓M2.7設計了一個《龍蝦逃脫計劃》的互動網頁 。
你是一只即將被端上餐桌的龍蝦 , 需要通過網頁上的一系列操作成功「逃脫」 。
用戶通過網頁與龍蝦互動 , 幫助它做決策、完成任務 , 最終逃出生天 。
游戲至少有3個結局:比如成功逃回大海(Happy Ending);被做成蒜蓉龍蝦(Bad Ending);成為網紅龍蝦(搞笑結局) 。
很快 , M2.7就成功部署了這個應用 , 體現了超強的代碼能力 。



復雜Office自動化能力
在M2.7加持下 , 其在金融場景下的Excel處理能力也是大大增強 。
比如 , 下面是某上市公司近三年的財務數據(單位:百萬人民幣) , 我們要求M2.7在Excel中完成財務分析、預測及估值 。

收到任務后 , 它立刻創建了一個專業的財務分析Excel報告 , 包含盈利能力指標、收益能力指標、財務結構指標、現金流指標、估值分析結果 , 以及2025-2027財務預測 。
對于金融從業者來說 , 這個功能也太實用了!






M2.7 , 開啟AI自我進化!
自我進化 , 已經成為全球大模型越來越明顯的趨勢 。
在大模型能力不斷逼近「工程化落地」的當下 , 模型究竟能否參與優化自身?
硅谷大廠們都已經在這條路上取得了成果 。
Anthropic內部已經發現:模型有了遞歸自我提升的跡象 , 這個時代將提前到來;OpenAI強調 , AI研究的自動化、自我改進 , 將是技術起飛的開始;谷歌DeepMind , 則通過AlphaTensor、AlphaCode、Gemini 3 Deep Think、AlphaEvolve等等 , 構建了遞歸式的自我進化 。
而MiniMax團隊在M2.7上進行的探索 , 給業界提供了一種新的參考范例 。
這一次 , 他們沒有單純提升模型能力 , 而是嘗試構建一個「模型驅動模型進化」的體系 , 其中的核心 , 就是一個研究型Agent Harness 。
團隊讓M2系列模型以解決方案架構師身份 , 僅用1人4天、零人工編碼 , 就自主搭建了包含CI、測試、代碼審查的開發Agent harness 。

這個系統整合了數據流水線、訓練環境、評測基礎設施、跨團隊協作以及持久化記憶 , 使模型能夠直接參與到研發流程中 , 而不僅僅是執行指令 。
在實踐中 , 人類研究員只需要提出方向 , 比如一個RL實驗的方法 , 而模型則需要承擔大部分執行工作 , 包括從文獻調研、實驗方案跟蹤 , 到數據流水線搭建與實驗啟動 。
而且在運行過程中 , Agent還會自動監控實驗狀態 , 分析日志 , 排查問題 , 進行指標分析 , 甚至直接修改代碼并提交合并請求 , 同時完成冒煙測試等流程 。
原本 , 這些工作都要人類團隊協作完成 , 結果 , M2.7竟然承擔了其中30%到50%的工作流 。
甚至 , 研究者還讓M2.7 , 直接參與到了Agent Harness的迭代中 。
他們給出命令 , 讓M2.7去優化某個內部scaffold上模型的軟件工程開發表現 。
它全程自主運行 , 對于「分析失敗軌跡 → 規劃改動 → 修改 scaffold 代碼 → 運行評測 → 對比結果 → 決定保留或回退」這個迭代循環 , 執行了超過100輪 。
這個過程中 , M2.7竟然真的發現了針對模型的有效優化 , 最終在評測集上效果提升了30%!

M2.7 , 持續驗證自優化機制
在科研能力層面 , 這種「自優化」機制也得到了驗證 。
團隊基于一個包含短時記憶、自反饋與自優化模塊的簡易腳手架 , 讓M2.7在MLE Bench Lite的22個機器學習任務中進行持續迭代 。

每一輪 , 模型都會生成記憶文件 , 并對當前結果進行自反饋 , 再基于歷史信息進行下一輪優化 。
結果 , 在三次24小時的獨立實驗中 , M2.7的表現隨時間持續提升 。 最佳成績為9金、5銀、1銅 , 三次平均得牌率達到66.6% , 與Gemini-3.1持平 , 僅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%) 。

這就證明 , M2.7成功驗證了一種全新的范式——在閉環系統中 , 通過記憶與反饋機制 , 持續優化自身表現 。
它成功證明 , 自己有能力真正去迭代某個機器學習模型的效果!

彩蛋:OpenRoom里的人形蝦來了
有趣的是 , 隨著M2.7在人設保持與對話能力上的大幅提升 , MiniMax還推出了一個很有意思的開源項目——OpenRoom 。
它不再是冷冰冰的對話框 , 而是一個萬物皆可互動的Web空間:你說一句話 , 場景就會實時變化 , 角色也會做出反應 , 甚至主動和環境產生互動 。
這間小屋中 , 你可以體驗AI的超絕沉浸感 , 角色們有自己的情緒 , 仿佛真正活在這個房間 。
【MiniMax M2.7國服第一!龍蝦自我進化,海外開發者瘋狂刷屏】看來 , AI自我進化的終極交互形式 , 就是多模態人形蝦!

    推薦閱讀