
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯:艾倫
【新智元導(dǎo)讀】2025年前盛行的閉源+重資本范式正被DeepSeek-R1與月之暗面Kimi K2 Thinking改寫(xiě) , 二者以數(shù)百萬(wàn)美元成本、開(kāi)源權(quán)重 , 憑MoE與MuonClip等優(yōu)化 , 在SWE-Bench與BrowseComp等基準(zhǔn)追平或超越GPT-5 , 并以更低API價(jià)格與本地部署撬動(dòng)市場(chǎng)預(yù)期 , 促使行業(yè)從砸錢(qián)堆料轉(zhuǎn)向以架構(gòu)創(chuàng)新與穩(wěn)定訓(xùn)練為核心的高效路線 。
2025年以前 , AI界盛行著一種信念:只有閉源、巨額投入和瘋狂堆算力才能打造最強(qiáng)大的模型 。
OpenAI作為這一思路的旗手 , 不僅將模型訓(xùn)練秘而不宣 , 更與合作伙伴繪制了高達(dá)1.4萬(wàn)億美元的基礎(chǔ)設(shè)施藍(lán)圖 。
八年內(nèi)燒掉1.4萬(wàn)億美元來(lái)構(gòu)建數(shù)據(jù)中心 , 被視作確保領(lǐng)先的唯一途徑 。
在這種思維下 , OpenAI旗艦?zāi)P偷难邪l(fā)成本節(jié)節(jié)攀升:據(jù)報(bào)道 , 訓(xùn)練GPT-4就花費(fèi)了約1億美元 。
閉源+重資本模式一度令人信服 , OpenAI因此獲得了天價(jià)估值和洶涌資本支持 。
然而 , 這一「用錢(qián)砸出智能」的神話 , 正隨著一系列意料之外的挑戰(zhàn)而動(dòng)搖 。
信念的第一次動(dòng)搖
DeepSeek-R1橫空出世
今年年初 , 一家彼時(shí)名不見(jiàn)經(jīng)傳的中國(guó)初創(chuàng)公司深度求索掀起了巨浪 。
它發(fā)布的DeepSeek-R1模型不僅開(kāi)源 , 而且號(hào)稱性能可與OpenAI頂級(jí)模型比肩 。
更令人瞠目的是 , DeepSeek宣稱訓(xùn)練這款模型只花了約560萬(wàn)美元 , 連舊金山一套像樣的房子都買(mǎi)不起 。
這個(gè)成本數(shù)字相比業(yè)內(nèi)普遍認(rèn)為的「燒錢(qián)」級(jí)別相差懸殊 , 僅為Meta開(kāi)發(fā)Llama模型成本的約十分之一 。
事實(shí)證明 , 這并非夸夸其談 。
DeepSeek-R1發(fā)布后一周內(nèi) , DeepSeek App下載量迅猛攀升 , 一舉超越ChatGPT , 登頂美國(guó)蘋(píng)果App Store免費(fèi)榜 。
一款開(kāi)源AI應(yīng)用在美國(guó)用戶中的受歡迎程度超過(guò)了OpenAI的王牌產(chǎn)品 , 這一幕令業(yè)界震驚 。
DeepSeek以微薄成本實(shí)現(xiàn)高性能 , 直接質(zhì)疑了開(kāi)發(fā)AI必須投入天量資金和算力的傳統(tǒng)觀念 。
華爾街對(duì)此反應(yīng)劇烈 , 微軟和谷歌股價(jià)應(yīng)聲下挫 , 而AI芯片巨頭英偉達(dá)的市值甚至蒸發(fā)了約17% , 相當(dāng)于約6000億美元 。
資本市場(chǎng)用腳投票 , 開(kāi)始重新審視AI賽道的投入產(chǎn)出模型:燒錢(qián)打造封閉模型的路線 , 或許并非高枕無(wú)憂的康莊大道 。
開(kāi)源低成本路線的核彈
Kimi K2 Thinking震撼登場(chǎng)
DeepSeek年初點(diǎn)燃的星星之火尚未平息 , 中國(guó)另一家初創(chuàng)公司月之暗面在年末投下了一枚震撼彈 。
本周 , 月之暗面發(fā)布了最新的開(kāi)源巨模型Kimi K2 Thinking(以下簡(jiǎn)稱K2 Thinking) , 以開(kāi)源身份在多個(gè)關(guān)鍵基準(zhǔn)上追平甚至超越了OpenAI的旗艦GPT-5 。
要知道 , GPT-5可是閉源巨頭最先進(jìn)的成果之一 , 而K2 Thinking僅用幾百萬(wàn)美元訓(xùn)練 , 卻在高難度推理和編碼測(cè)試上正面較量并拔得頭籌 。
K2 Thinking在綜合編程挑戰(zhàn)「SWE-Bench Verified」上取得了71.3%的通過(guò)率 , 略高于GPT-5的成績(jī) , 甚至在復(fù)雜網(wǎng)頁(yè)搜索推理任務(wù)BrowseComp上 , 以60.2%對(duì)54.9%的得分大幅領(lǐng)先GPT-5 。
這些數(shù)字宣示了一個(gè)歷史拐點(diǎn):開(kāi)源模型與頂級(jí)閉源模型之間性能鴻溝的實(shí)質(zhì)性塌陷 。
K2 Thinking的問(wèn)世標(biāo)志著開(kāi)源免費(fèi)模型在高端推理和編碼能力上與封閉系統(tǒng)平起平坐 , 這一點(diǎn)在過(guò)去幾乎難以想象 。
而實(shí)現(xiàn)這一壯舉 , 月之暗面投入的算力成本據(jù)傳約為460萬(wàn)美元 , 比起OpenAI宏圖中的萬(wàn)億投入 , 幾乎可忽略不計(jì) 。
一邊是幾百萬(wàn)美元造就的開(kāi)放奇跡 , 另一邊是幻想燒錢(qián)萬(wàn)億的巨無(wú)霸帝國(guó) , 鮮明對(duì)比令人不禁懷疑:AI行業(yè)過(guò)去堅(jiān)持的大投入邏輯 , 難道真的站不住腳了?
技術(shù)路徑的勝利
巧用架構(gòu)勝過(guò)砸錢(qián)堆料
K2 Thinking并非魔法橫空出世 , 而是技術(shù)路線差異帶來(lái)的成本逆襲 。
傳統(tǒng)的GPT-5這類閉源模型采用的是「通用大腦」式架構(gòu) , 每個(gè)參數(shù)對(duì)每個(gè)輸入都會(huì)發(fā)動(dòng)運(yùn)算 , 因而模型越大推理開(kāi)銷(xiāo)越驚人 。
K2 Thinking則采用混合專家架構(gòu) , 將龐大模型劃分為384個(gè)專長(zhǎng)各異的專家模塊 。
每次僅有8個(gè)專家(外加1個(gè)通用專家)被激活參與計(jì)算 , 相當(dāng)于只動(dòng)用320億參數(shù)來(lái)解決特定問(wèn)題 。
換言之 , K2-Thinking擁有一個(gè)「萬(wàn)智百寶箱」 , 每個(gè)token只調(diào)用其中不到3.5%的智力 , 卻能享受近似萬(wàn)億參數(shù)的知識(shí)儲(chǔ)備 。
這一架構(gòu)設(shè)計(jì)讓K2 Thinking在推理時(shí)既聰明又節(jié)?。 骸復(fù)蠖槐恐亍?。
架構(gòu)優(yōu)化帶來(lái)的成本效率提升達(dá)百倍之多 , 令人嘆為觀止 。
更關(guān)鍵的是 , 月之暗面研發(fā)了名為「MuonClip」的自定義優(yōu)化器 , 在訓(xùn)練過(guò)程中自動(dòng)穩(wěn)壓梯度 , 成功杜絕了超大模型常見(jiàn)的梯度爆炸和損失發(fā)散問(wèn)題 。
Kimi-K2在長(zhǎng)達(dá)15.5萬(wàn)億token的訓(xùn)練中實(shí)現(xiàn)了「零訓(xùn)練崩潰」 , 無(wú)需人為中途干預(yù)重啟 , 這意味著即使資金設(shè)備相對(duì)有限的團(tuán)隊(duì)也能可靠地訓(xùn)練超大模型 。
DeepSeek也在工程上強(qiáng)調(diào)「強(qiáng)化學(xué)習(xí)后訓(xùn)練」等高效策略 , 使得小團(tuán)隊(duì)得以攀登AI高峰 。
這些技術(shù)路徑上的創(chuàng)新 , 等于是用聰明才智破解了過(guò)去只有砸錢(qián)才能解決的難題 。
曾經(jīng)只有巨頭燒錢(qián)才能鋪就的康莊大道 , 如今民間高手另辟蹊徑 , 用技術(shù)巧思抄了近路 。
開(kāi)源風(fēng)暴的經(jīng)濟(jì)學(xué)沖擊
當(dāng)技術(shù)壁壘被攻克 , 開(kāi)源路線在經(jīng)濟(jì)層面的優(yōu)勢(shì)便愈發(fā)凸顯 。
K2 Thinking的模型權(quán)重可在相應(yīng)許可證條款下自由下載部署 。
這與OpenAI等閉源模式形成鮮明對(duì)比 , 它們的模型被封藏于云端 , 只能通過(guò)昂貴API租用它們的大腦 。
以K2 Thinking為例 , 其官方提供的API價(jià)格是每百萬(wàn)輸入token收費(fèi)4元(命中緩存時(shí)更低至1元)、輸出token16元 。
相比之下 , OpenAI的GPT-5 API價(jià)格約為每百萬(wàn)輸入token收1.25美元(約9元) , 輸出token高達(dá)10美元(約71元) 。
換算下來(lái) , 同樣百萬(wàn)token的處理 , K2 Thinking的費(fèi)用僅為GPT-5的十分之一不到 。
對(duì)開(kāi)發(fā)者和企業(yè)而言 , 這無(wú)疑極具誘惑力 , 更何況K2完全可以本地部署 , 不愿付API費(fèi)的話 , 大可以自建服務(wù) 。
正因如此 , 我們已看到市場(chǎng)正在迅速響應(yīng):越來(lái)越多AI工具和平臺(tái)開(kāi)始集成K2 Thinking模型 , 許多開(kāi)發(fā)者在社區(qū)分享如何用K2 Thinking微調(diào)自定義應(yīng)用 。
DeepSeek-R1發(fā)布后 , 其MIT開(kāi)源權(quán)重更是被無(wú)數(shù)開(kāi)源社區(qū)下載、魔改 , 用于各種插件和研究項(xiàng)目 。
甚至政府機(jī)構(gòu)和大型企業(yè)也開(kāi)始重新考慮 , 與其斥資購(gòu)買(mǎi)封閉模型的算力配額 , 不如采用開(kāi)源模型作為基礎(chǔ) , 掌控自主可控的AI能力——尤其當(dāng)這些開(kāi)源模型已經(jīng)足夠好且成本低廉 。
這種用腳投票的風(fēng)向轉(zhuǎn)變 , 不僅出現(xiàn)在技術(shù)圈 , 更在資本圈引發(fā)連鎖反應(yīng):OpenAI此前天價(jià)的數(shù)據(jù)中心投資承諾 , 正面對(duì)質(zhì)疑和壓力 。
OpenAI高管甚至在公共場(chǎng)合暗示需要政府貸款支持 , 事后又忙不迭出來(lái)「滅火」澄清不尋求政府背書(shū) , 以平息外界對(duì)其燒錢(qián)計(jì)劃的擔(dān)憂 。
當(dāng)巨頭為融資「續(xù)命」四處游說(shuō)時(shí) , 開(kāi)源對(duì)手們正用實(shí)際成績(jī)證明 , 也許根本不需要那么多錢(qián) , 也能把事情辦成 。
行業(yè)敘事的改寫(xiě)與泡沫的冷卻
DeepSeek和Kimi K2 Thinking帶來(lái)的并非單純的「追趕」 , 而更像是一場(chǎng)對(duì)舊路線的證偽 。
過(guò)去 , 封閉巨頭們的護(hù)城河建立在一種假設(shè)之上:只有不斷投入數(shù)量級(jí)增長(zhǎng)的資金和算力 , 才能保持模型性能的領(lǐng)先 。
這一假設(shè)曾讓OpenAI們?cè)谫Y本市場(chǎng)上如日中天 , 甚至形成了某種估值泡沫 , AI公司和底層芯片廠商的價(jià)值被無(wú)限推高 , 因?yàn)樗腥讼嘈艧X(qián)會(huì)帶來(lái)奇跡 。
然而當(dāng)開(kāi)源挑戰(zhàn)者以區(qū)區(qū)百萬(wàn)量級(jí)美元達(dá)到同類水準(zhǔn) , 這個(gè)故事的結(jié)局便不再那么線性 。
事實(shí)證明 , 「性能領(lǐng)先的最后20%」或許并非大多數(shù)用戶真正需要的 , 尤其如果為此要付出十倍乃至百倍的價(jià)格 。
從普通消費(fèi)者到中小企業(yè) , 更青睞的是「夠用+便宜」的實(shí)惠 。
OpenAI等公司無(wú)疑依然握有行業(yè)頂尖的研究人才和技術(shù)積累 , 但他們?cè)匐y宣稱自己的路線是「唯一正確且必不可少」的 。
行業(yè)敘事正在轉(zhuǎn)向:與其癡迷于砸錢(qián)堆出更大模型 , 不如在架構(gòu)創(chuàng)新和工程穩(wěn)定性上下功夫 , 以換取成本效率和開(kāi)放生態(tài) 。
投資者也日趨清醒 , 過(guò)去見(jiàn)誰(shuí)談AI就砸錢(qián)的狂熱減退了許多 , 現(xiàn)在更關(guān)注實(shí)際效能和商業(yè)可行性 。
【小成本DeepSeek和Kimi,正攻破奧特曼的「算力護(hù)城河」】最危險(xiǎn)的對(duì)手 , 不是那個(gè)跟你拼燒錢(qián)的人 , 而是那個(gè)證明根本不需要燒那么多錢(qián)的人 。
推薦閱讀
- 小鵬為什么選擇物理AI這條路
- 小鵬團(tuán)隊(duì)曾拒絕女性機(jī)器人當(dāng)場(chǎng)脫衣割肉:不被信任哭笑不得
- 元旦前登場(chǎng)!小米17 Ultra通過(guò)認(rèn)證:全系支持100W閃充+UWB
- 京東3C數(shù)碼辦公爆品巔峰4小時(shí)來(lái)襲 11月11日晚8點(diǎn)限時(shí)低至1元搶
- 10月中國(guó)電視出貨量同比下降,小米超過(guò)長(zhǎng)虹、海爾、康佳三家之和
- 280MB小更新!澎湃 OS3 升級(jí)亂戰(zhàn)開(kāi)打,不同機(jī)型體驗(yàn)差距突然拉開(kāi)!
- 小米智能存儲(chǔ)即將登場(chǎng):雙盤(pán)位NAS瞄準(zhǔn)年輕用戶,深度整合米家生態(tài)
- 網(wǎng)頁(yè)瀏覽多1小時(shí)!測(cè)試表明純eSIM版iPhone17 Pro續(xù)航優(yōu)勢(shì)明顯
- 字典大小的迷你主機(jī)性能卻超越臺(tái)式機(jī)?銳龍AI Max+ 395確實(shí)猛
- 為什么感覺(jué)小鵬機(jī)器人一發(fā)布就是宇樹(shù)科技無(wú)法達(dá)到的高度?
