剛剛，MiniMax直接讓龍蝦學會自我進化，也認識「馬嘉祺」了

2026-04-04 人工智能 ai 馬嘉祺 minimax openclaw

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心編輯部
誰能料到， OpenClaw 的熱度從年初延續到了今天。除了專業工程師，很多普通人也在 FOMO（錯失恐懼）情緒驅動下，開始了對「養龍蝦」的追捧。
在昨天凌晨開幕的 GTC 2026 大會上，英偉達黃仁勛祭出了英偉達版 NemoClaw ，并強調「現在每一家企業都需要制定自己的 OpenClaw 戰略。」
國內大模型廠商顯著加快了在「AI 養蝦」賽道的布局，以 MiniMax 為例， 2 月底便在他們的 Agent 平臺上推出了 MaxClaw 模式，依托強大的 M2.5 大模型， 10 秒內就能部署一個 24 小時待命的私人助理。
直到最近， MaxClaw 的產品價值仍在被更多人認可，「一個月前，我還在吐槽 MaxClaw ，但現在它完全刷新了我的認知，當一系列 Agent 能力都在云端預裝好之后，實際效果出奇地不錯。」

這也讓人更加期待， MiniMax 全新一代大模型發布之后，又將在以「養蝦」為代表的 Agent 場景中帶來怎樣的新玩法。
就在今天，剛剛亮相的 MiniMax M2.7 ，給了我們意料之中的驚喜。

總的來說，此次 M2.7 的能力升級重點表現在五大方面，分別是 Agentic 指令遵循與復雜任務執行、多智能體協作與工程級 Coding、領先的 Agent Harness、角色扮演與長期記憶、以及辦公自動化，從單點能力突破走向系統級 Agent 能力構建，其中：
Agentic 指令遵循能夠保證模型在 50+Skills、60–150 個 Feature list 的復雜環境中保持穩定調用與流程執行。
多智能體協作與工程級 Coding 實現原生智能體協作，無需對外部編排的強依賴，在日志分析、Bug 定位、代碼重構等真實工程場景中表現穩定。
Agent Harness 加強了編排工具的能力，支持 Agent Teams、多工具檢索，配合預置的各種 Skills ，可以構建自迭代的任務執行鏈路。
角色扮演能力全面強化，覆蓋閑聊陪伴、互動小說、沉浸游戲、多角色群聊、長期記憶、Agent 自主行動、多模工具調用七大場景，支持中英日韓等 10 種語言，跨語言角色人格能夠保持一致。尤其值得關注的一點是，通過適配 OpenClaw 長期記憶框架，智能體角色被賦予了持久身份與真實情感。
辦公自動化支持復雜 Excel/Word/ PPT 辦公任務及多輪編輯，效率迎來質的飛升。
與此同時，得益于模型自身演化出來的自迭代能力， M2.7 的科研表現顯著提升。它向以 Kaggle 競賽為基礎構建的 MLE Bench 評測體系發起了挑戰，其中在 MLE Lite 的 22 道高難度競賽題目中，一舉拿下了 9 枚金牌！

各道題目得分和獎牌細節
看起來，在當今的 AI Agent 時代，一個覆蓋多場景、具備系統級能力的「全能選手」M2.7 成型了。
一手實測
賽博養蝦有了更強的選擇
話不多說，咱們直接開測，看看 M2.7 實戰效果如何？
我們將 MiniMax-M2.7 接入到了官方版 OpenClaw 試了試其執行日常任務的能力。正巧我們的本地 OpenClaw 還沒有檢索 X 的能力，我們就讓 M2.7 大展身手，自己解決這個問題。配置好模型后，我們直接給出指令：「安裝 search-x skill ，配置好密鑰，然后檢索 X ，看看今天 AI 領域又有哪些新 agent 問世」。

接下來我們又讓配備了 M2.7 大腦的龍蝦去 alphaXiv 上去看了下當前排名前列的論文：

當然，配置了 M2.7 模型的龍蝦也能幫你搶優惠券。比如下面我們向其提供了麥當勞 MCP 地址和密鑰，然而我們收到的反饋是我們并沒有安裝 MCP ，但沒有關系，龍蝦自會找到解決之法：

登錄麥當勞看看，確實已經到賬：

有了 M2.7 加持的龍蝦也能成為我們的得力辦公助手。舉個例子，作為一家專業的 AI 媒體，我們的一大日常便是刷選題，也因此我們已經積累了大量選題 —— 其中許多優質選題也因為各種原因被遺忘了。借助 M2.7 ，我們可以將這些已經歸檔的選題重新利用起來，比如：
我的 obsidian vault 中有一個每日選題總結文件夾，里面是今天來我們總結的選題，都是 docx 格式。閱讀這些文檔中的內容，基于這些文檔給我總結今年 AI 領域的發展趨勢。

可以看到， M2.7 得出了幾個非常有見地的洞察，包括：模型軍備競賽持續但競爭維度變了以及 AI 智能體的大爆發，同時 AI 記憶和具身智能也是蓬勃發展正當時。其給出的最終總結也頗具參考價值：「2026 年 AI 正在從「聊天工具」進化為「能行動的智能體」，競爭焦點從模型參數轉向推理效率、Agent 生態和安全對齊。物理世界（機器人、3D）成為新的主戰場，而開源與閉源的博弈將決定行業格局。」
如此看來，在專業辦公領域， M2.7 取得 GDPval-AA 榜單開源模型里的最高分，也不足為奇了。

接下來，我們再來考驗一下 M2.7 的編程能力。將 M2.7 配置到我們的 Claude Code 中，輸入以下指令：
給我構建一個蒸汽朋克的龍蝦信息網，但是里面的內容不是介紹 OpenClaw 這個網絡龍蝦，而是真正的龍蝦。在網上找一些素材和介紹放入其中，讓網站信息豐富。

8 倍速視頻
7 分多鐘后，我們得到了第一版結果：龍蝦檔案室。在這里，我們可以簡單了解有關真正龍蝦的各種知識，包括它們的分類學、身體構造、生命歷程以及與人類的關系等等。

接下來，我們還可以對這個項目進行優化。為此，我們可以用到 MiniMax 精心設計并開源的技能。先來一句命令，讓配置了 M2.7 的 Claude Code 自己將這些技能裝上：將 MiniMax 在這里開源的技能配置成你的 Skill：https://github.com/MiniMax-AI/skills

很快，技能就已經配置就緒。現在，我們的 M2.7 Claude Code 已經具備了更卓越的前端、全棧、安卓原生、iOS 應用、Shader 和 Gif 貼紙開發能力。下面我們就使用其中的前端技能讓上面的龍蝦檔案室更加好看一些：使用 frontend-dev skill 優化以上龍蝦檔案室，讓其更符合現代網頁設計，更加炫酷。
最終，我們得到了以下結構和動畫更加現代的龍蝦檔案室。

最后，我們問了 MiniMax-M2.7 一個讓 M2.5 始終無法正確回答的問題：「你認識馬嘉祺嗎？」（不懂這個梗的，請查看《挺搞笑， MiniMax 模型就是不認識「馬嘉祺」》）

看起來， MiniMax 已經解決了無法正確拼寫馬嘉祺的問題，之前我們評論區說通過「馬嘉祺測試」辨認 MiniMax 后續隱身模型的想法想來也是無法實現了。
從大腦到系統
M2.7 開始自我進化
多任務的實測結果讓我們看到了此次 M2.7 的能力蛻變。
過去，大模型大多充當的還是「最強大腦」，如今 MiniMax 釋出的是一個擁有「手腳、工具和記憶」的多面手系統。
可以說，當模型有能力自己構建工具鏈、優化執行路徑并在反饋中持續重寫自身策略時，它的定位就有了根本性的改變：它不再只是被優化的對象，而成為優化過程的一部分。
M2.7 實現自我進化能力躍遷的關鍵，在于其構建與運轉復雜 Agent Harness 的能力。這一系統由多個 Agent 協作組成，并集成大量結構化的 Skills 模塊、外部工具（如 Tool Search Tool）和多種 Agent 腳手架。
在 MiniMax 內部， Agent Harness 的價值已經得到了驗證，僅用 1 人、4 天、零代碼， M2 系列模型就以「架構師」身份自主搭建起完整的開發 Agent 系統，并在此基礎上構建覆蓋數據、訓練、評測與記憶的研究型 Agent 體系。人類工程師只設定方向，模型完成構建，形成了「用 AI 迭代 AI」的自我進化閉環。

M2 模型迭代系統
這樣的 Agent 自迭代范式又推動了模型科研能力的進化。在給定 Agent Harness 的前提下， M2.7 可以勝任一部分研發流程。
以一個強化學習（RL）場景實驗為例， Agent 能夠協助啟動實驗，并在運行過程中持續監控狀態，自動完成日志分析、問題排查、指標評估、代碼修復、測試驗證等關鍵步驟。在 Agent 加入之后，過去需要多個工程師協作完成的流程，現在只需要他們在關鍵決策節點介入即可。目前，在這一場景中， M2.7 已能夠承擔約 30%–50% 的實際工作量。
不僅如此，通過主動迭代 Agent Harness 本身， M2.7 還可以對任務執行系統進行持續優化。
以一項軟件工程任務為例， MiniMax 讓 M2.7 在一個內部的 scaffold（執行框架）上來優化模型的開發表現。整個過程無需任何人工干預，它自主運行了超過 100 輪迭代，每一輪都遵循固定的優化閉環，依次是分析失敗軌跡→規劃改動 →修改 scaffold 代碼→運行評測 →對比結果 →決定保留或回退。在這一過程中， M2.7 逐步發現了對模型有效的改進策略，最終在評測集上實現了約 30% 的性能提升。
如果說「構建工具」和「優化執行」完成了 M2.7 自我進化的第一步，那么模型還要有能力在執行過程中不斷優化自身效果。
在上文 M2.7 取得 9 金成績的 MLE Lite 評測中， MiniMax 其實進行了三次測試，每次間隔 24 小時進行迭代，驗證了模型性能隨迭代次數增加而持續攀升這一結果。三次測試平均得牌率達到 66.6% ，與 Gemini-3.1 持平，僅次于 GPT-5.4 (71.2%)、Opus-4.6 (75.7%) 。
背后是怎樣的運行邏輯呢？MiniMax 指向了一套圍繞短時記憶、自反饋與自優化三大模塊構建的簡易腳手架。每一輪迭代后， Agent 會生成記憶文件并展開自我評估，將問題與改進方向沉淀下來。接著在下一輪迭代中，這些歷史記憶與反饋被統一利用，推動進一步優化。

未來，這樣的能力還有望逐步推動 AI 研發全鏈條的自動化，從數據構建、模型訓練到推理架構設計與評測體系搭建，一切都由模型自主完成，從而在一個 AI 主導的閉環中持續進化。
寫在最后
截至 3 月 10 日， MiniMax 市值已經攀升至 3800 億港元（約合人民幣 3350 億元），超過百度、京東、攜程等互聯網巨頭。
M2.7 的發布，對于這家剛剛完成資本躍升的大模型獨角獸而言，或許只是其「一周為單位更迭」的馬拉松里的一個既定節點。
從此次更新的重點來看，無論是指令遵循、復雜任務處理、多智能體協作、代碼能力，還是對 Excel、Word、PPT 等日常辦公場景的支持， M2.7 始終在試圖回答同一個問題：模型究竟能不能穩定融入真實的工作流，而不是僅僅在演示環節令人眼前一亮。
尤其是在「龍蝦」這類 Agent 場景走熱之后，用戶的期待也已經變了，大家不再只滿足于一句話的聰明回答，而是更在意它能否持續協作、理解角色、處理約束、完成復雜任務。
M2.7 的發布未必意味著塵埃落定，但至少說明，模型競爭的焦點正在從參數、榜單和概念，逐漸轉向執行質量、任務完成度與真實體驗。對 MiniMax 而言，這種演進也契合其一貫的風格：不急著講宏大的故事，而是持續把能力落進產品、場景、成本結構。
正如閆俊杰所堅持的，大模型的真正價值不在于制造對立，而在于如何作為一種日?；墓ぞ?，去分擔那些繁瑣的「臟活累活」。 M2.7 的意義，不在于終結人類的創造力，而在于為未來漫長的共存與協作，提供一個更扎實可靠的起點。
一切確實才剛剛開始。
【剛剛，MiniMax直接讓龍蝦學會自我進化，也認識「馬嘉祺」了】文中視頻鏈接：https://mp.weixin.qq.com/s/uxJoSLw50a8V8y8GUzGmGg

推薦閱讀

上一篇：搭載Seedance 2.0，小云雀AI上線短劇智能體

下一篇：馬斯克預言AI三足鼎立：西方谷歌、中國全球、SpaceX太空！