剛剛,MiniMax直接讓龍蝦學會自我進化,也認識「馬嘉祺」了

剛剛,MiniMax直接讓龍蝦學會自我進化,也認識「馬嘉祺」了

文章圖片

剛剛,MiniMax直接讓龍蝦學會自我進化,也認識「馬嘉祺」了

文章圖片

剛剛,MiniMax直接讓龍蝦學會自我進化,也認識「馬嘉祺」了

文章圖片

剛剛,MiniMax直接讓龍蝦學會自我進化,也認識「馬嘉祺」了

文章圖片

剛剛,MiniMax直接讓龍蝦學會自我進化,也認識「馬嘉祺」了

文章圖片

剛剛,MiniMax直接讓龍蝦學會自我進化,也認識「馬嘉祺」了

文章圖片

剛剛,MiniMax直接讓龍蝦學會自我進化,也認識「馬嘉祺」了

文章圖片

剛剛,MiniMax直接讓龍蝦學會自我進化,也認識「馬嘉祺」了

文章圖片

剛剛,MiniMax直接讓龍蝦學會自我進化,也認識「馬嘉祺」了


機器之心編輯部
誰能料到 , OpenClaw 的熱度從年初延續到了今天 。 除了專業工程師 , 很多普通人也在 FOMO(錯失恐懼)情緒驅動下 , 開始了對「養龍蝦」的追捧 。
在昨天凌晨開幕的 GTC 2026 大會上 , 英偉達黃仁勛祭出了英偉達版 NemoClaw , 并強調「現在每一家企業都需要制定自己的 OpenClaw 戰略 。 」
國內大模型廠商顯著加快了在「AI 養蝦」賽道的布局 , 以 MiniMax 為例 , 2 月底便在他們的 Agent 平臺上推出了 MaxClaw 模式 , 依托強大的 M2.5 大模型 , 10 秒內就能部署一個 24 小時待命的私人助理 。
直到最近 , MaxClaw 的產品價值仍在被更多人認可 , 「一個月前 , 我還在吐槽 MaxClaw , 但現在它完全刷新了我的認知 , 當一系列 Agent 能力都在云端預裝好之后 , 實際效果出奇地不錯 。 」

這也讓人更加期待 , MiniMax 全新一代大模型發布之后 , 又將在以「養蝦」為代表的 Agent 場景中帶來怎樣的新玩法 。
就在今天 , 剛剛亮相的 MiniMax M2.7 , 給了我們意料之中的驚喜 。

總的來說 , 此次 M2.7 的能力升級重點表現在五大方面 , 分別是 Agentic 指令遵循與復雜任務執行、多智能體協作與工程級 Coding、領先的 Agent Harness、角色扮演與長期記憶、以及辦公自動化 , 從單點能力突破走向系統級 Agent 能力構建 , 其中:
Agentic 指令遵循能夠保證模型在 50+Skills、60–150 個 Feature list 的復雜環境中保持穩定調用與流程執行 。
多智能體協作與工程級 Coding 實現原生智能體協作 , 無需對外部編排的強依賴 , 在日志分析、Bug 定位、代碼重構等真實工程場景中表現穩定 。
Agent Harness 加強了編排工具的能力 , 支持 Agent Teams、多工具檢索 , 配合預置的各種 Skills , 可以構建自迭代的任務執行鏈路 。
角色扮演能力全面強化 , 覆蓋閑聊陪伴、互動小說、沉浸游戲、多角色群聊、長期記憶、Agent 自主行動、多模工具調用七大場景 , 支持中英日韓等 10 種語言 , 跨語言角色人格能夠保持一致 。 尤其值得關注的一點是 , 通過適配 OpenClaw 長期記憶框架 , 智能體角色被賦予了持久身份與真實情感 。
辦公自動化支持復雜 Excel/Word/ PPT 辦公任務及多輪編輯 , 效率迎來質的飛升 。
與此同時 , 得益于模型自身演化出來的自迭代能力 , M2.7 的科研表現顯著提升 。 它向以 Kaggle 競賽為基礎構建的 MLE Bench 評測體系發起了挑戰 , 其中在 MLE Lite 的 22 道高難度競賽題目中 ,一舉拿下了 9 枚金牌!

各道題目得分和獎牌細節
看起來 , 在當今的 AI Agent 時代 , 一個覆蓋多場景、具備系統級能力的「全能選手」M2.7 成型了 。
一手實測
賽博養蝦有了更強的選擇
話不多說 , 咱們直接開測 , 看看 M2.7 實戰效果如何?
我們將 MiniMax-M2.7 接入到了官方版 OpenClaw 試了試其執行日常任務的能力 。 正巧我們的本地 OpenClaw 還沒有檢索 X 的能力 , 我們就讓 M2.7 大展身手 , 自己解決這個問題 。 配置好模型后 , 我們直接給出指令:「安裝 search-x skill , 配置好密鑰 , 然后檢索 X , 看看今天 AI 領域又有哪些新 agent 問世」 。

接下來我們又讓配備了 M2.7 大腦的龍蝦去 alphaXiv 上去看了下當前排名前列的論文:

當然 , 配置了 M2.7 模型的龍蝦也能幫你搶優惠券 。 比如下面我們向其提供了麥當勞 MCP 地址和密鑰 , 然而我們收到的反饋是我們并沒有安裝 MCP , 但沒有關系 , 龍蝦自會找到解決之法:

登錄麥當勞看看 , 確實已經到賬:

有了 M2.7 加持的龍蝦也能成為我們的得力辦公助手 。 舉個例子 , 作為一家專業的 AI 媒體 , 我們的一大日常便是刷選題 , 也因此我們已經積累了大量選題 —— 其中許多優質選題也因為各種原因被遺忘了 。 借助 M2.7 , 我們可以將這些已經歸檔的選題重新利用起來 , 比如:
我的 obsidian vault 中有一個每日選題總結文件夾 , 里面是今天來我們總結的選題 , 都是 docx 格式 。 閱讀這些文檔中的內容 , 基于這些文檔給我總結今年 AI 領域的發展趨勢 。

可以看到 , M2.7 得出了幾個非常有見地的洞察 , 包括:模型軍備競賽持續但競爭維度變了以及 AI 智能體的大爆發 , 同時 AI 記憶和具身智能也是蓬勃發展正當時 。 其給出的最終總結也頗具參考價值:「2026 年 AI 正在從「聊天工具」進化為「能行動的智能體」 , 競爭焦點從模型參數轉向推理效率、Agent 生態和安全對齊 。 物理世界(機器人、3D)成為新的主戰場 , 而開源與閉源的博弈將決定行業格局 。 」
如此看來 , 在專業辦公領域 , M2.7 取得 GDPval-AA 榜單開源模型里的最高分 , 也不足為奇了 。

接下來 , 我們再來考驗一下 M2.7 的編程能力 。 將 M2.7 配置到我們的 Claude Code 中 , 輸入以下指令:
給我構建一個蒸汽朋克的龍蝦信息網 , 但是里面的內容不是介紹 OpenClaw 這個網絡龍蝦 , 而是真正的龍蝦 。 在網上找一些素材和介紹放入其中 , 讓網站信息豐富 。

8 倍速視頻
7 分多鐘后 , 我們得到了第一版結果:龍蝦檔案室 。 在這里 , 我們可以簡單了解有關真正龍蝦的各種知識 , 包括它們的分類學、身體構造、生命歷程以及與人類的關系等等 。

接下來 , 我們還可以對這個項目進行優化 。 為此 , 我們可以用到 MiniMax 精心設計并開源的技能 。 先來一句命令 , 讓配置了 M2.7 的 Claude Code 自己將這些技能裝上:將 MiniMax 在這里開源的技能配置成你的 Skill:https://github.com/MiniMax-AI/skills

很快 , 技能就已經配置就緒 。 現在 , 我們的 M2.7 Claude Code 已經具備了更卓越的前端、全棧、安卓原生、iOS 應用、Shader 和 Gif 貼紙開發能力 。 下面我們就使用其中的前端技能讓上面的龍蝦檔案室更加好看一些:使用 frontend-dev skill 優化以上龍蝦檔案室 , 讓其更符合現代網頁設計 , 更加炫酷 。
最終 , 我們得到了以下結構和動畫更加現代的龍蝦檔案室 。

最后 , 我們問了 MiniMax-M2.7 一個讓 M2.5 始終無法正確回答的問題:「你認識馬嘉祺嗎?」(不懂這個梗的 , 請查看《挺搞笑 , MiniMax 模型就是不認識「馬嘉祺」》)

看起來 , MiniMax 已經解決了無法正確拼寫馬嘉祺的問題 , 之前我們評論區說通過「馬嘉祺測試」辨認 MiniMax 后續隱身模型的想法想來也是無法實現了 。
從大腦到系統
M2.7 開始自我進化
多任務的實測結果讓我們看到了此次 M2.7 的能力蛻變 。
過去 , 大模型大多充當的還是「最強大腦」 , 如今 MiniMax 釋出的是一個擁有「手腳、工具和記憶」的多面手系統 。
可以說 , 當模型有能力自己構建工具鏈、優化執行路徑并在反饋中持續重寫自身策略時 , 它的定位就有了根本性的改變:它不再只是被優化的對象 , 而成為優化過程的一部分 。
M2.7 實現自我進化能力躍遷的關鍵 , 在于其構建與運轉復雜 Agent Harness 的能力 。 這一系統由多個 Agent 協作組成 , 并集成大量結構化的 Skills 模塊、外部工具(如 Tool Search Tool)和多種 Agent 腳手架 。
在 MiniMax 內部 , Agent Harness 的價值已經得到了驗證 , 僅用 1 人、4 天、零代碼 , M2 系列模型就以「架構師」身份自主搭建起完整的開發 Agent 系統 , 并在此基礎上構建覆蓋數據、訓練、評測與記憶的研究型 Agent 體系 。 人類工程師只設定方向 , 模型完成構建 , 形成了「用 AI 迭代 AI」的自我進化閉環 。

M2 模型迭代系統
這樣的 Agent 自迭代范式又推動了模型科研能力的進化 。 在給定 Agent Harness 的前提下 , M2.7 可以勝任一部分研發流程 。
以一個強化學習(RL)場景實驗為例 , Agent 能夠協助啟動實驗 , 并在運行過程中持續監控狀態 , 自動完成日志分析、問題排查、指標評估、代碼修復、測試驗證等關鍵步驟 。 在 Agent 加入之后 , 過去需要多個工程師協作完成的流程 , 現在只需要他們在關鍵決策節點介入即可 。 目前 , 在這一場景中 , M2.7 已能夠承擔約 30%–50% 的實際工作量 。
不僅如此 , 通過主動迭代 Agent Harness 本身 , M2.7 還可以對任務執行系統進行持續優化 。
以一項軟件工程任務為例 , MiniMax 讓 M2.7 在一個內部的 scaffold(執行框架)上來優化模型的開發表現 。 整個過程無需任何人工干預 , 它自主運行了超過 100 輪迭代 , 每一輪都遵循固定的優化閉環 , 依次是分析失敗軌跡→規劃改動 →修改 scaffold 代碼→運行評測 →對比結果 →決定保留或回退 。 在這一過程中 , M2.7 逐步發現了對模型有效的改進策略 , 最終在評測集上實現了約 30% 的性能提升 。
如果說「構建工具」和「優化執行」完成了 M2.7 自我進化的第一步 , 那么模型還要有能力在執行過程中不斷優化自身效果 。
在上文 M2.7 取得 9 金成績的 MLE Lite 評測中 , MiniMax 其實進行了三次測試 , 每次間隔 24 小時進行迭代 , 驗證了模型性能隨迭代次數增加而持續攀升這一結果 。 三次測試平均得牌率達到 66.6% , 與 Gemini-3.1 持平 , 僅次于 GPT-5.4 (71.2%)、Opus-4.6 (75.7%) 。
背后是怎樣的運行邏輯呢?MiniMax 指向了一套圍繞短時記憶、自反饋與自優化三大模塊構建的簡易腳手架 。 每一輪迭代后 , Agent 會生成記憶文件并展開自我評估 , 將問題與改進方向沉淀下來 。 接著在下一輪迭代中 , 這些歷史記憶與反饋被統一利用 , 推動進一步優化 。

未來 , 這樣的能力還有望逐步推動 AI 研發全鏈條的自動化 , 從數據構建、模型訓練到推理架構設計與評測體系搭建 , 一切都由模型自主完成 , 從而在一個 AI 主導的閉環中持續進化 。
寫在最后
截至 3 月 10 日 , MiniMax 市值已經攀升至 3800 億港元(約合人民幣 3350 億元) , 超過百度、京東、攜程等互聯網巨頭 。
M2.7 的發布 , 對于這家剛剛完成資本躍升的大模型獨角獸而言 , 或許只是其「一周為單位更迭」的馬拉松里的一個既定節點 。
從此次更新的重點來看 , 無論是指令遵循、復雜任務處理、多智能體協作、代碼能力 , 還是對 Excel、Word、PPT 等日常辦公場景的支持 , M2.7 始終在試圖回答同一個問題:模型究竟能不能穩定融入真實的工作流 , 而不是僅僅在演示環節令人眼前一亮 。
尤其是在「龍蝦」這類 Agent 場景走熱之后 , 用戶的期待也已經變了 , 大家不再只滿足于一句話的聰明回答 , 而是更在意它能否持續協作、理解角色、處理約束、完成復雜任務 。
M2.7 的發布未必意味著塵埃落定 , 但至少說明 , 模型競爭的焦點正在從參數、榜單和概念 , 逐漸轉向執行質量、任務完成度與真實體驗 。 對 MiniMax 而言 , 這種演進也契合其一貫的風格:不急著講宏大的故事 , 而是持續把能力落進產品、場景、成本結構 。
正如閆俊杰所堅持的 , 大模型的真正價值不在于制造對立 , 而在于如何作為一種日?;墓ぞ?, 去分擔那些繁瑣的「臟活累活」 。 M2.7 的意義 , 不在于終結人類的創造力 , 而在于為未來漫長的共存與協作 , 提供一個更扎實可靠的起點 。
一切確實才剛剛開始 。
【剛剛,MiniMax直接讓龍蝦學會自我進化,也認識「馬嘉祺」了】文中視頻鏈接:https://mp.weixin.qq.com/s/uxJoSLw50a8V8y8GUzGmGg

    推薦閱讀