實測MiniMax M2.1之后,我們終于看懂了其招股書里的技術底氣

實測MiniMax M2.1之后,我們終于看懂了其招股書里的技術底氣

文章圖片

實測MiniMax M2.1之后,我們終于看懂了其招股書里的技術底氣

文章圖片

實測MiniMax M2.1之后,我們終于看懂了其招股書里的技術底氣

文章圖片

實測MiniMax M2.1之后,我們終于看懂了其招股書里的技術底氣

文章圖片

實測MiniMax M2.1之后,我們終于看懂了其招股書里的技術底氣

文章圖片

實測MiniMax M2.1之后,我們終于看懂了其招股書里的技術底氣

文章圖片

實測MiniMax M2.1之后,我們終于看懂了其招股書里的技術底氣

文章圖片



編輯|Panda
這兩天 , 中國 AI 行業關注的核心無疑是 MiniMax 。
12 月 21 日 , MiniMax(稀宇科技)正式向港交所遞交招股書 , 披露的一連串數字瞬間引爆了輿論?。 赫松獻黨?10 億美元的現金儲備 , 2025 年前九個月營收同比激增 174.7% , 而在保持高強度研發的同時 , 經調整凈虧損控制在 1.86 億美元 。
資本市場的喧囂還沒結束 , 23 日 , MiniMax 又反手甩出了一張技術牌:正式上線 MiniMax M2.1 模型 。

這并非一次常規的版本迭代 。 根據官方披露的信息 , M2.1 在 SWE-bench Multilingual 多語言評測中以 72.5% 的成績拿下了 SOTA , 超越了 Gemini 3 Pro 和 Claude Sonnet 4.5 。

更重要的是 , 它不再局限于 Python 或前端代碼的生成 , 而是向 Rust、Java、C++ 等更廣泛的后端語言發起了進攻 , 試圖解決過往模型「寫得像但跑不通」、「缺乏工程感」的痛點 。
同時 , M2.1 大幅強化了原生 Android 和 iOS 的開發能力 , 打出了「Not only vibe WebDev but also vibe AppDev」的口號 。
不僅如此 , 為了給這種「從零到一」的全棧能力提供硬核支撐 , MiniMax 還構建并開源了全新基準 VIBE(VisualInteractive Benchmark for Execution in Application Development) 。 不同于傳統基準 , VIBE 涵蓋了 Web、仿真、Android、iOS 及后端五大核心子集 , 并引入創新的 Agent-as-a-Verifier (AaaV) 范式 , 能夠自動評估生成的 Application 在真實運行環境中的交互邏輯與視覺美感 。 在這場「全棧構建」的終極測試中 , M2.1 以平均 88.6 分的成績展現了卓越實力 , 不僅在幾乎所有子集上顯著優于 Claude Sonnet 4.5 , 更逼近了 Claude Opus 4.5 的水準 。

同時 , 憑借強大的交錯思維與指令跟隨能力 , MiniMax M2.1 還能集成「復合指令約束」 , 從而可以更輕松地完成辦公自動化任務 。
更令開發者驚喜的是其落地的速度與廣度:M2.1 第一時間就可無縫集成至 Claude Code、Cursor 等主流 AI 編程工具中 。
配合更快的響應速度、更簡潔的思維鏈以及大幅降低的 token 消耗 , 它顯然是有備而來 , 意在直接切入開發者的核心工作流 。
這種「今天秀肌肉 , 明天亮技術」的節奏顯然不是巧合 。 在外界還在爭論一家成立剛四年的公司為何能跑出如此驚人的 IPO 速度時 , MiniMax M2.1 的發布則是一種有力的回應:它試圖用模型的迭代速度 , 來詮釋招股書里高效研發的數字指標 , 以及為何這家公司值得眾多明星投資人的信任與多輪投資 。

作為一家長期關注 AI 技術的媒體 , 在這一波喧囂過后的 48 小時里 , 我們拿到 M2.1 的接口 , 把它扔進了開發環境中 , 用真實的任務對其進行了考驗 。
畢竟 , 招股書是給投資人看的面子 , 而模型能力才是開發者真金白銀投票的里子 。 這份體驗報告或可成為洞見這家公司真實技術底蘊的切口 。
實測:從偏科到全能
在過去很長一段時間里 , MiniMax 給開發者的印象往往帶著鮮明的標簽:它的語音合成極其逼真 , 視頻生成的表現力備受贊譽(海螺) , 角色扮演能力也在 C 端應用(如星野)中大放異彩 。 如果說大模型班級里有特長生 , 那么 MiniMax 以前更像是一個極具天賦的文科生或藝術生 。
然而 , 要支撐起招股書中描繪的 AGI 藍圖 , 光有情商可不夠 。 在企業級應用和復雜的生產力場景中 , 推理能力和模型使用工具的能力才是檢驗模型智商的硬通貨 。 此前 , 必須承認的是 , 作為開源模型 , M2 與 Claude Sonnet 4.5 或 GPT-5 (thinking) 等國際頂尖模型相比 , 在部分任務上確實還差點意思 。
這也正是 M2.1 發布的戰略意義所在:一次針對性的進化 。
為了驗證 M2.1 是否真的補齊了編程這塊短板 , 我們決定跳過那些基礎的「寫首藏頭詩」或「畫個貪吃蛇」 , 直接將它置于真實的開發者視角下 , 以了解其在代碼重構、復雜邏輯規劃等方面的真實表現 。
首先來一個相對簡單的任務:蝦仁模擬器 , 看看我們能否在自己的電腦上扮演這位歷經無數世界的穿越者 。 首先 , 構建一個簡單的提示詞:
我想構建一個蝦仁模擬器小游戲 , 核心主題是:你是蝦仁 , 你又穿越了 。 游戲內容是主角蝦仁穿越到不同的朝代或者世界(比如喪尸世界、修仙世界、賽博世界) , 游戲后臺使用 AI: MiniMax-M2.1 。 請先規劃這個項目 , 讓我選擇游戲方式和技術棧等 , 并將任務規劃放入 task.md 文件 。
在 Claude Code 配置好 MiniMax M2.1 之后 , 直接輸入提示詞開始構建!

4 倍速視頻(以下視頻都是 4 倍速)
整個過程耗時不到 6 分鐘 。 給這個小游戲配置好 API , 來初步試試效果:

命令行的界面玩起來總歸是不方便 , 也不美麗 , 接下來我們繼續推進 , 讓 MiniMax M2.1 開發一個直觀好看的 UI 。
給這個游戲開發一個漂亮的網頁 UI , 整體使用像素風格 , 使用莫蘭迪色系配色 。 使用 JavaScript 。 支持深色和淺色模式切換 。 界面上加一個隨機穿越的按鈕 。
這下 , 效果好多了 。 MiniMax M2.1 的審美著實在線!

你甚至能一句話就創建出一個炫酷的個人主頁:

MiniMax M2.1 為漫威超級英雄黑寡婦創建的個人主頁
接下來 , 我們大幅提升任務難題 , 來考驗一下 MiniMax M2.1 的多語言編程能力 。 我們構想一個較為復雜的任務 , 并在 AI 的輔助下撰寫了一個提示詞:

然后我們將其放入任務文件夾的「任務.md」文件中 , 直接給出執行指令:
讀取文件夾中的任務.md 文件并實現這個項目 。
這個任務的難度較大 , MiniMax M2.1 并沒有一蹴而就 , 但整個過程非常接近真實的開發體驗 。 在與其進行多輪互動后 , 它最終交出了一份令人滿意的答卷 。
值得一提的是 , 在這個過程中我們遇到了多次報錯 , 例如 crates.io 鏡像源問題導致無法下載組件、Go 語言中 % 運算符不能用于 float64 而需改用 math.Mod () 函數等 。
令人驚喜的是 , 這些問題并沒有成為阻礙 。 我們只需將報錯信息直接反饋給 MiniMax M2.1 , 它就能迅速理解上下文 , 自動完成修復工作 , 并編寫了各個模塊的單元測試 。
最后 , 我們繼續讓 MiniMax M2.1 將這三個使用不同語言編寫的模塊連接了起來 。

最終 , 我們得到了這樣一個系統:

左側為 React 前端 , 右上為 Go 語言寫的網關 , 右下為 Rust 寫的核心程序
我們還進行了其它一些實測 , 包括將多年前的 C++ 游戲庫重構為 Python 版本、修改了一個 Obsidian 插件、一個輔助發推文的小工具以及一個「技能吃豆人」小游戲 。

技能吃豆人增加了技能豆 , 吃下后可以獲得技能 , 比如這里的穿墻能力
這些實測證明 , MiniMax M2.1 不僅能寫代碼 , 更能像一個成熟的工程師一樣解決問題 。
技術與商業的互文
當我們把視線從 IDE 編輯器的代碼窗口移開 , 重新審視那份數百頁的招股書時 , 會發現 M2.1 的發布其實是解讀 MiniMax 商業邏輯的一把關鍵鑰匙 。
在外界看來 , 或許招股書是財務數字的游戲 , 而模型發布是技術圈的狂歡 。 但在 MiniMax 這里 , 兩者構成了緊密的互文關系 。
研發杠桿率:打破「燒錢換增長」的魔咒
招股書中有一個容易被忽視但極具含金量的數據對比:2025 年前九個月 , MiniMax 的營收同比增長了 174.7% , 但同期研發費用僅增長了約 30% 。

這個顯著的「剪刀差」修正了外界對于大模型公司「研發無底洞」的刻板印象 。 它揭示了一個關鍵事實:MiniMax 已經跑通了高效的研發模式 。
這意味著 , 公司不再需要線性地堆砌人力和算力資源來換取模型能力的提升 。 M2.1 的誕生就是最好的佐證:在研發投入增速遠低于營收增速的前提下 , MiniMax 依然保持了極高的迭代頻率 , 在短時間內填補了代碼和邏輯推理的短板 。 對于二級市場投資者而言 , 這種不隨營收規模同比例膨脹的研發成本結構 , 是驗證其商業模式可擴展性(Scalability)的最強證據 。
從聊天機器人到智能體:MiniMax 的生產力雄心
MiniMax 在招股書中強調了其在 C 端應用(如星野、海螺 AI)上的統治力 。 然而 , 要撐起千億級的市場想象空間 , 僅靠聊天是不夠的 。 M2.1 補齊邏輯和代碼短板 , 真正的雄心在于對 B 端生產力場景的滲透 。
行業內對于 Agent 能力的評估標準 , 正在從簡單的對話測試轉向更為嚴苛的基準 , 例如 Toolathon 。 這是一個包含 32 個專業軟件(如 Kubernetes、BigQuery)、600 多個工具的第三方高難度評測 , 要求模型在平均 20 輪的交互中完成復雜的長程任務 。
M2.1 對代碼解釋器和工具調用能力的強化 , 正是為了應對這種真實世界復雜度 。 當一個模型能夠熟練操作 Docker 容器、管理日歷并自動處理電商訂單時 , 它就從一個 C 端的玩具進化成了 B 端的員工 。 這種能力的躍升 , 將直接拓寬 MiniMax 開放平臺的客戶半徑 , 使其能夠承接企業級工作流的自動化需求 。
商業閉環的最后一公里
至此 , MiniMax 的商業邏輯形成了閉環:
C 端產品(星野、海螺)作為數據飛輪和現金牛 , 提供高用戶粘性和直接收入; 底層模型(M2.1)通過 MoE 架構控制推理成本 , 通過技術補全提升智商上限; 開放平臺基于 M2.1 的 Agent 和多模態能力 , 切入高價值的企業級市場 ?,F在的 MiniMax 已左手是資本市場的入場券(招股書) , 右手是技術戰場的沖鋒號(M2.1) 。
對該公司而言 , IPO 是通過技術轉化為生產力的新起點 。 M2.1 的發布證明了 , 這家公司在叩響港交所大門的同時 , 依然保持著對技術邊界的極致探索 。 這種「左手賬本 , 右手模型」的雙輪驅動 , 或許正是它能在短短四年內跑通商業閉環的秘密所在 。
【實測MiniMax M2.1之后,我們終于看懂了其招股書里的技術底氣】文中視頻鏈接:https://mp.weixin.qq.com/s/0FUw5WYa-pffvWdM6vrafA

    推薦閱讀