MiniMax進化論:一群「偏執者」的破浪前行

MiniMax進化論:一群「偏執者」的破浪前行

文章圖片

MiniMax進化論:一群「偏執者」的破浪前行

文章圖片

MiniMax進化論:一群「偏執者」的破浪前行

文章圖片

MiniMax進化論:一群「偏執者」的破浪前行

文章圖片

MiniMax進化論:一群「偏執者」的破浪前行

文章圖片

MiniMax進化論:一群「偏執者」的破浪前行

文章圖片

MiniMax進化論:一群「偏執者」的破浪前行





【MiniMax進化論:一群「偏執者」的破浪前行】
全球開源前二 , 來自中國大模型的Aha時刻 。






如果一個技術用3年時間 , 從默默無聞到改變世界 , 我們稱其為第N次工業革命;
如果這個技術從論文到落地的過程中 , 頭部玩家如走馬燈更迭 , 百億流量砸下去只聽一聲響就陷入沉寂 , 我們稱其為資本絞肉機;
如果這個技術集齊了以上所有特質 , 還能以常規技術乘十的速度進化 , 讓互聯網時代的生態護城河、資金壁壘、規模效應全部失效 , 創業公司也能站在世界舞臺中心 , 那么 , 它是大模型 。
而這一趨勢 , 自今年年初DeepSeek“掀桌”以來 , 變得尤為明顯 。 時至今日 , 在大模型行業 , 能留在桌子上的企業唯一的生存法則就是——創新至上 。
那么 , 如何理解大模型行業的創新至上?為什么傳統互聯網的玩法在大模型時代會徹底失效?為什么大模型的淘汰 , 能以季度為單位發生?
剛剛結束的MiniMax Week , 或許正是我們審視這些問題的最佳切入點 。
以此為切口 , 你會看見一個創新行業的創業公司如何掙脫巨頭的射程;可以看到大模型從技術創新到改變世界之間的橋梁如何搭建;以及 , 一群“偏執”的人 , 如何在這個一切被按下加速鍵的行業中破浪前行 。



一只跳水貓咪 , 如何讓世界Aha一開始 , MiniMax Week的關注度 , 還局限在大模型行業內的討論:這次MiniMax會拿到多少SOTA(State of the Art)成績 。
直到全球社交網站上 , 橘貓、奶牛、三花 , 各式各樣的貓咪跳水視頻開始像病毒一樣蔓延;緊隨其后 , 羊駝、熊貓、長頸鹿 , 也在視頻中以空中3周半回旋、后空翻等姿勢從十米高臺一躍而下 。 甚至 , 在視頻中 , 你還會看到不同體重的動物起跳時 , 會對應不同的跳板的震動幅度與水花大小差異 。

就像年初的DeepSeek R1發布一樣 , MiniMax迎來了自己的“Aha時刻” 。
“Aha Moment”源自心理學與產品設計領域 , 指的是用戶在使用一個產品或工具時 , 突然意識到其價值和潛力的那個瞬間 。 它往往伴隨著一種頓悟、驚喜或認知飛躍的感覺 。
在其背后 , 往往是技術發展從量變到質變的關鍵突破;緊隨其后 , 則往往是產品滲透率大突破 , 以及行業大規模爆發轉折節點的到來 。
而貓咪跳水 , 之所以被稱為視頻AI的Aha Moment , 除了其在社媒上引發的轟動之外 , 更在于長久以來 , 跳水、體操、多人交互這樣的復雜動作 , 長期以來一直被視為視頻AI的“圖靈測試” 。
因為這些動作不僅要求AI精確控制每一幀畫面 , 同時 , 所有連續幀組成的運動時空軌跡如姿勢變化、跳躍旋轉角度、速度等細節必須符合現實的重力、慣性等物理規律;甚至 , 不同動物起跳對應的跳板振幅與不同入水姿勢帶來的水花角度等復雜環境交互 , 也必須精準還原現實 。
而這一切的背后 , 正是因為MiniMax最新發布的視頻模型——Hailuo 02 。
縱向對比 , Hailuo 02模型參數相較Hailuo 01增長3倍 , 視頻分辨率提升至原生1080P , 能實現單次生成10秒的高清內容 , 涵蓋精細肢體動作、流體動力學模擬、鏡面效果與真實物理交互 , 甚至可還原雜技演出級別的復雜動態 , 并給出專業級的原生運鏡 。

海螺AI超級創作者:胡生AIGC生成的demo
橫向對比 , Hailuo 02在Artificial Analysis Video Arena的Image-to-Video榜單中 , 位列全球第二 。 與此同時 , Hailuo 02在性能超過Google Veo3的情況下 , 其API成本卻只有Google Veo3的1/9 。


排名數據始于上榜日 , 截至目前

那么 , 為什么Hailuo 02能在保持高逼真度的同時 , 還能保持低成本?
一方面是scaling law的助推:Hailuo 02模型的總參數量相較于Hailuo 01擴大了3倍 , 數據量擴大了4倍 , 使得模型能夠理解更加復雜的指令和物理場景 。
與此同時 , Hailuo 02還采用了創新的NCR(Noise-aware Compute Redistribution)架構 。 這一架構通過噪聲感知機制 , 將計算資源按照需求分配給不同的區域 。 高噪聲區域的信息密度較低 , 進行壓縮處理;低噪聲區域則分配更多的計算資源 , 重點捕捉關鍵細節 , 進而有效減少HBM內存讀寫量逾70% , 讓訓練與推理效率提升2.5倍 。
當然 , 這種將精力放在對的事情上、不斷創新的邏輯 , 不只是NCR的底層技術思路 , 同時也是對MiniMax企業氣質 , 以及如今地位如何煉成的最好概括 。



M1創新背后:大模型如何掙脫巨頭的資本萬有引力去年的同一時間 , 讓無數大模型創業者們最頭疼的問題之一 , 一定包括:
巨頭的每一次轉身 , 都是中小企業的生死考驗 。 那么你如何逃脫巨頭的資本萬有引力?
不僅合作伙伴關心 , 但凡公開場合 , 媒體、投資人也一定會反復追問 。
形勢看起來的確嚴峻:國內外幾乎所有互聯網巨頭、科技巨頭全數下場大模型 , 百模大戰之激烈 , 一度讓人以為要復刻當年共享單車、外賣的老路 。
質疑的原因似乎也講得通:大模型參數已經走到萬億關口 , 無論訓練還是推理都需要足夠的資本壁壘;大模型進化需要依賴海量數據 , 而巨頭恰好有足夠的數據資源;大模型研發需要高密度的人才 , 大廠的優渥資源 , 看似也足以支撐其挖來任何想要的人才 。
但現實卻是:僅僅一年時間過去 , 百模大戰便進入偃旗息鼓階段;各種榜單的SOTA也被Open AI、Anthropic、MiniMax、DeepSeek這樣的創業公司占據了大半 。
邏輯很簡單 , 大量的資本投入 , 只是模型訓練的條件之一 。 但做大模型如投資 , 一個技術路線越是共識程度高 , 就越說明這已經是個滯后變量 , 企業必須不斷挖掘新的有效的Alpha , 才能帶來超額的回報 。 而在這一方面 , 更加靈活的創業公司 , 相比傳統巨頭 , 往往有著更加敏銳的嗅覺與更高效的決策鏈條 。
具體到MiniMax , 市場層面 , 僅去年前8個月 , 其海外產品Talkie的全球下載量就快速突破千萬次 , 超過Character AI , 成為美國市場下載量第4的人工智能應用 。 英國《金融時報》報道稱 , MiniMax2024年的營收 , 在7000萬美元左右 。
技術層面 , 剛剛在專業大模型基準測試Artificial Analysis榜單中拿下全球前二成績的MiniMax M1模型同樣是很好的例證 。 這是一個擁有4560億參數的大模型 , 除了在業內主流的17個評測集位列前茅之外 , M1還是全球上下文最長的推理模型 , 原生支持100萬token輸入長度 , 是DeepSeek R1的8倍;并且支持8萬個輸出token , 打破了Gemini 2.5 Pro的6.4萬個限制 , 成為世界最長輸出的模型 。



對大模型而言 , 更長的上下文 , 往往意味著更強的智能體驗 。 尤其是在深度搜索、科研等高復雜度場景中 , 長上下文更是深度推理(數學題、代碼場景)、深度內容綜合(論文創作、行業研究)的核心能力來源 。 尤其在agent場景中 , 隨著多agent混合成為新的行業趨勢 , 各個子agent的輸出結果 , 會變成輸入給到主agent , 如果上下文長度不夠 , 那么整個系統都會隨之變得毫無意義 。
與此同時 , 在工具使用場景(TAU-bench)中 , MiniMax-M1-40k更是領跑所有開源權重模型 , 甚至超過閉源模型Gemini-2.5 Pro 。 數據顯示 , 即使在30多輪長鏈路思考與工具調用任務中 , MiniMax-M1-40k依然有極高的穩定性 。



那么問題來了 , 既然創新是大模型時代通往終點的路徑 , 支撐起M1如此成績的核心創新究竟是什么?
答案一是M1在架構上的創新 。
與業內常規做法一樣 , M1也是在預訓練的基座模型(MiniMax-Text-01)上進行強化學習后構建而成 , 同樣采用了混合專家結構(MoE) 。 但鮮少有人知道 , 早在2023年前后 , MoE尚未成為行業共識的時候 , MiniMax就已經推出了國內首個MoE大模型 。
也是在同一時期 , 在同行還普遍采用傳統Transformer的自注意力計算機制時 , MiniMax就已經開啟了對混合注意力機制的探索 , 并在其后將這一技術用于M1模型 。 所謂混合注意力機制 , 就是1/8使用自注意力機制 , 另外7/8使用了自創的Lightning Attention(線性注意力) , 通過先做“分塊計算”(tiling) , 塊內用傳統注意力計算 , 塊間采用線性注意力進行信息傳遞 , 最終完成全局語義捕捉的方式 , 避免了累積求和操作(cumsum)拖慢速度 。 這也是更長上下文窗口的底層技術支撐 。
除了架構的創新 , 在訓練方法上 , MiniMax M1還采用CISPO(Clipped IS-weight Policy Optimization)替代傳統的PPO(近端策略優化)/GRPO(deepseek開發的近端策略優化) , 極大壓縮成本 , 提升訓練效率 。
傳統的PPO/GRPO算法在處理混合架構時會直接忽略However、Wait、Aha之類的重要性很高但是頻率較低的token , 或者只給他們很低的權重 。 導致模型的復雜推理出現邏輯混亂等問題 。 而MiniMax的CISPO算法 , 會根據token的重要性對其進行采樣、裁剪 , 賦予權重 , 讓長響應除了長度之外 , 更有質量 。



技術報告顯示 , 基于CISPO , 訓練側 , MiniMax團隊只用了3周時間、512塊H800 GPU就完成強化學習訓練階段 , 算力租用成本僅53萬美元 。 即使相比最新的DAPO , 也能僅用一半的訓練步數達到相同的性能 。
推理側 , 生成10萬token時 , M1的推理算力也只需要DeepSeek R1的25% , 而且M1模型在數學和編程等任務上比DeepSeek-R1模型還要高效 。
也就是說 , 對MiniMax而言 , 大模型的確是個燒錢的事業 , 但只要一腳邁過門檻 , 產業真正比拼的還是誰更能通過技術創新省錢 , 讓技術更加普惠 , 且帶來更高的上限 。



Agent , 技術到商業的橋梁如何打造?事實上 , 如果將目光拉長到最近十年 , 會發現 , 這已經是第二次AI浪潮 , 上一波以AlexNet+Alpha Go點燃的AI大爆發中 , AI的落地始終沒有逃出視覺識別、NLP的范疇 , 最終陷入短暫低谷 。
但大模型不同 , 其通用能力帶來了更高的商業化天花板 , 也讓技術的生命周期 , 被無限拉長 。
最近兩年 , 行業的Aha時刻 , 大致可以分為兩種類型 。 一種是底層大模型的能力技術創新:比如一開始的ChatGPT , 比如年初的DeepSeek 。
而在大模型創新基礎之上 , 是另一種橫向的Agent應用創新 , 其典型代表比如cursor、lovart、manus 。
因為Agent的優勢之一 , 就是可以通過多步操作集成達成更直觀可用的結果 。 而一個驚艷的成果展示 , 往往就是一個技術從實驗室到產業加速的重要轉折點 , 這次出圈的Hailuo Video Agent也如此 。
比起一般的視頻生成 , Hailuo Agent操作更簡單 , 同時效果更可控 , 可以一鍵生成全片 。 不只是小貓跳水 , 羊駝跳水 , 甚至復雜體操動作 , Hailuo Video Agent都能搞定 。 目前階段Hailuo Video Agent已經支持超百種視頻模板 , 涵蓋藝術片、廣告片、MV、社媒爆款等多種體裁 。 這也意味著AI徹底打通了創意構思、分鏡設計、圖片素材生成、剪輯完整視頻的生產鏈路 。



用戶只需要一句自然語言輸入 , 系統就會自動調度各種工具 , 并且提供當初如DeepSeek R1一樣的清晰思維鏈路 , 讓創作優質的同時變得更可控 。
根據AI產品榜數據 , 自上線以來 , 海螺AI連續6個月在全球榜單中位居視頻生成AI產品的第一 , 力壓Sora、Runway等國內外AI視頻產品 。
當然 , Agent的另一個優勢是通過集成多種工具、能力 , 帶著目的(用戶發出的需求)自主規劃路徑并執行 , 從而自主幫人類解決復雜專業問題 , 更通用的MiniMax Agent就是代表 。
相比視頻生成效果驚艷的Hailuo Video Agent , MiniMax Agent的定位更像是一個具備長期任務規劃與執行閉環任務能力的AI專家 , 可以幫助AI完成從“Chatbot”向“專業生產力引擎”的質變升級 。 具體來說 , MiniMax Agent是個能完成長程(Long Horizon)復雜任務的通用智能體 。 能多步規劃出專家級解決方案、靈活拆解任務需求、執行多個子任務從而交付最終結果 。
據官方數據 , MiniMax Agent在MiniMax內部已經使用了近60天 , 并成為超過50%的員工日常PPT制作、網頁搭建、代碼輔助使用的產品 。
相比普通功能單一的Agent , MiniMax Agent能在編程上生成包含復雜跳轉邏輯、通過全面測試且沒有bug的網頁;在多模態方面除了支持長文本文件 , 也支持視頻、音頻、圖片等理解能力 , 同時支持生成圖文音并茂的作品;還能通過MCP擴展、來完成做動畫、廣告片、PPT等任務……

MiniMax Agent生成的盧浮宮博物館網頁
可以說 , MiniMax的通用Agent , 是MiniMax大模型基礎智能 , 與跨模態能力結合起來的最強工程化能力落地 。 而MiniMax幾乎也是唯一一家能夠提供完整全模態能力的廠商 。
當然 , 可能也有人會質疑 , 大模型公司做Agent的意義是什么?
擁有基座模型研發能力的大模型公司在開發通用Agent上有著天然的優勢:憑借對底層架構的深入把控 , 其Agent能在性能優化、成本控制、生態構建形成閉環優勢 , 從而主導開發出更強大、適應性更強的通用Agent 。
一句話概括就是:大模型的創新 , 打開了Agent的能力天花板;Agent的快速增長 , 讓大模型的演進方向更加清晰明確 。 兩者就像下坡路上的滾雪球 , 互相借力 , 就能事半功倍 , 將生態越做越大 。



如果說大模型行業是一個時間、資本、創新、知識密度一切被極度壓縮的全新物種 , 那么身處其中 , MiniMax仍然可以算得上是一家“特立獨行”的存在 。
MiniMax早在2022年初就成立了——比2022年底ChatGPT引爆全球還要早上一年 。 這也導致當年ChatGPT突然爆火之后 , 所有人都在四處打聽這個MiniMax到底是何方神圣 。
在技術路徑上 , MiniMax也同樣敢為人先 。
2023年 , 彼時國內市場還是Dense(稠密)模型的天下 , MiniMax卻將80%以上的算力和資源全部投入MoE(混合專家)模型的開發中 , 于2024年初推出了國內第一個MoE大模型 , 成為共識引領者 。
今年1月 , MiniMax又開源了籌謀已久的Lightning Attention閃電注意力技術 , 對著Transformer架構進行了一頓大刀闊斧的“爆改” , 挖掘大模型突破天花板的新Alpha因子 。
到了6月 , MiniMax拿出的M1已經憑借100萬上下文窗口、算力成本暴降70% , 以及架構、算法的一系列創新 , 閃電拿下開源模型全球第二寶座(數據來源Artificial Analysis Intelligence Index榜單 , 排名截至目前) 。
而與M1同期發布的MiniMax通用Agent , 也已經能夠解決當下無數Agent應用備受困擾的跨模態、長距離(多決策)、任務拆解、工具調用難題 , 完成了從工具到全能助理的進化 。
這似乎是一家永遠不知疲倦 , 永遠在顛覆自我 , 永遠在探索更高上限、更高智能水平的AI公司 。
而這種近乎偏執的創新驅動 , 本質上是對AI大模型競賽終局的預判 , 偉大商業模式往往是直白甚至淺顯的——all in技術創新 , 然后堅定不移地執行 。

    推薦閱讀