小成本DeepSeek和Kimi，正攻破奧特曼的「算力護(hù)城河」_小小志|openai|奧特曼

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：艾倫
【新智元導(dǎo)讀】2025年前盛行的閉源+重資本范式正被DeepSeek-R1與月之暗面Kimi K2 Thinking改寫(xiě) ，二者以數(shù)百萬(wàn)美元成本、開(kāi)源權(quán)重，憑MoE與MuonClip等優(yōu)化，在SWE-Bench與BrowseComp等基準(zhǔn)追平或超越GPT-5 ，并以更低API價(jià)格與本地部署撬動(dòng)市場(chǎng)預(yù)期，促使行業(yè)從砸錢(qián)堆料轉(zhuǎn)向以架構(gòu)創(chuàng)新與穩(wěn)定訓(xùn)練為核心的高效路線。
2025年以前， AI界盛行著一種信念：只有閉源、巨額投入和瘋狂堆算力才能打造最強(qiáng)大的模型。
OpenAI作為這一思路的旗手，不僅將模型訓(xùn)練秘而不宣，更與合作伙伴繪制了高達(dá)1.4萬(wàn)億美元的基礎(chǔ)設(shè)施藍(lán)圖。
八年內(nèi)燒掉1.4萬(wàn)億美元來(lái)構(gòu)建數(shù)據(jù)中心，被視作確保領(lǐng)先的唯一途徑。
在這種思維下， OpenAI旗艦?zāi)Ｐ偷难邪l(fā)成本節(jié)節(jié)攀升：據(jù)報(bào)道，訓(xùn)練GPT-4就花費(fèi)了約1億美元。
閉源+重資本模式一度令人信服， OpenAI因此獲得了天價(jià)估值和洶涌資本支持。
然而，這一「用錢(qián)砸出智能」的神話，正隨著一系列意料之外的挑戰(zhàn)而動(dòng)搖。

信念的第一次動(dòng)搖
DeepSeek-R1橫空出世
今年年初，一家彼時(shí)名不見(jiàn)經(jīng)傳的中國(guó)初創(chuàng)公司深度求索掀起了巨浪。
它發(fā)布的DeepSeek-R1模型不僅開(kāi)源，而且號(hào)稱性能可與OpenAI頂級(jí)模型比肩。

更令人瞠目的是， DeepSeek宣稱訓(xùn)練這款模型只花了約560萬(wàn)美元，連舊金山一套像樣的房子都買(mǎi)不起。
這個(gè)成本數(shù)字相比業(yè)內(nèi)普遍認(rèn)為的「燒錢(qián)」級(jí)別相差懸殊，僅為Meta開(kāi)發(fā)Llama模型成本的約十分之一。
事實(shí)證明，這并非夸夸其談。
DeepSeek-R1發(fā)布后一周內(nèi) ， DeepSeek App下載量迅猛攀升，一舉超越ChatGPT ，登頂美國(guó)蘋(píng)果App Store免費(fèi)榜。
一款開(kāi)源AI應(yīng)用在美國(guó)用戶中的受歡迎程度超過(guò)了OpenAI的王牌產(chǎn)品，這一幕令業(yè)界震驚。
DeepSeek以微薄成本實(shí)現(xiàn)高性能，直接質(zhì)疑了開(kāi)發(fā)AI必須投入天量資金和算力的傳統(tǒng)觀念。
華爾街對(duì)此反應(yīng)劇烈，微軟和谷歌股價(jià)應(yīng)聲下挫，而AI芯片巨頭英偉達(dá)的市值甚至蒸發(fā)了約17% ，相當(dāng)于約6000億美元。
資本市場(chǎng)用腳投票，開(kāi)始重新審視AI賽道的投入產(chǎn)出模型：燒錢(qián)打造封閉模型的路線，或許并非高枕無(wú)憂的康莊大道。

開(kāi)源低成本路線的核彈
Kimi K2 Thinking震撼登場(chǎng)
DeepSeek年初點(diǎn)燃的星星之火尚未平息，中國(guó)另一家初創(chuàng)公司月之暗面在年末投下了一枚震撼彈。
本周，月之暗面發(fā)布了最新的開(kāi)源巨模型Kimi K2 Thinking（以下簡(jiǎn)稱K2 Thinking），以開(kāi)源身份在多個(gè)關(guān)鍵基準(zhǔn)上追平甚至超越了OpenAI的旗艦GPT-5 。

要知道， GPT-5可是閉源巨頭最先進(jìn)的成果之一，而K2 Thinking僅用幾百萬(wàn)美元訓(xùn)練，卻在高難度推理和編碼測(cè)試上正面較量并拔得頭籌。
K2 Thinking在綜合編程挑戰(zhàn)「SWE-Bench Verified」上取得了71.3%的通過(guò)率，略高于GPT-5的成績(jī) ，甚至在復(fù)雜網(wǎng)頁(yè)搜索推理任務(wù)BrowseComp上，以60.2%對(duì)54.9%的得分大幅領(lǐng)先GPT-5 。

這些數(shù)字宣示了一個(gè)歷史拐點(diǎn)：開(kāi)源模型與頂級(jí)閉源模型之間性能鴻溝的實(shí)質(zhì)性塌陷。
K2 Thinking的問(wèn)世標(biāo)志著開(kāi)源免費(fèi)模型在高端推理和編碼能力上與封閉系統(tǒng)平起平坐，這一點(diǎn)在過(guò)去幾乎難以想象。
而實(shí)現(xiàn)這一壯舉，月之暗面投入的算力成本據(jù)傳約為460萬(wàn)美元，比起OpenAI宏圖中的萬(wàn)億投入，幾乎可忽略不計(jì) 。
一邊是幾百萬(wàn)美元造就的開(kāi)放奇跡，另一邊是幻想燒錢(qián)萬(wàn)億的巨無(wú)霸帝國(guó) ，鮮明對(duì)比令人不禁懷疑：AI行業(yè)過(guò)去堅(jiān)持的大投入邏輯，難道真的站不住腳了？

技術(shù)路徑的勝利
巧用架構(gòu)勝過(guò)砸錢(qián)堆料
K2 Thinking并非魔法橫空出世，而是技術(shù)路線差異帶來(lái)的成本逆襲。
傳統(tǒng)的GPT-5這類閉源模型采用的是「通用大腦」式架構(gòu) ，每個(gè)參數(shù)對(duì)每個(gè)輸入都會(huì)發(fā)動(dòng)運(yùn)算，因而模型越大推理開(kāi)銷(xiāo)越驚人。
K2 Thinking則采用混合專家架構(gòu) ，將龐大模型劃分為384個(gè)專長(zhǎng)各異的專家模塊。
每次僅有8個(gè)專家（外加1個(gè)通用專家）被激活參與計(jì)算，相當(dāng)于只動(dòng)用320億參數(shù)來(lái)解決特定問(wèn)題。
換言之， K2-Thinking擁有一個(gè)「萬(wàn)智百寶箱」，每個(gè)token只調(diào)用其中不到3.5%的智力，卻能享受近似萬(wàn)億參數(shù)的知識(shí)儲(chǔ)備。
這一架構(gòu)設(shè)計(jì)讓K2 Thinking在推理時(shí)既聰明又節(jié)?。骸復(fù)蠖槐恐亍?。
架構(gòu)優(yōu)化帶來(lái)的成本效率提升達(dá)百倍之多，令人嘆為觀止。
更關(guān)鍵的是，月之暗面研發(fā)了名為「MuonClip」的自定義優(yōu)化器，在訓(xùn)練過(guò)程中自動(dòng)穩(wěn)壓梯度，成功杜絕了超大模型常見(jiàn)的梯度爆炸和損失發(fā)散問(wèn)題。
Kimi-K2在長(zhǎng)達(dá)15.5萬(wàn)億token的訓(xùn)練中實(shí)現(xiàn)了「零訓(xùn)練崩潰」，無(wú)需人為中途干預(yù)重啟，這意味著即使資金設(shè)備相對(duì)有限的團(tuán)隊(duì)也能可靠地訓(xùn)練超大模型。
DeepSeek也在工程上強(qiáng)調(diào)「強(qiáng)化學(xué)習(xí)后訓(xùn)練」等高效策略，使得小團(tuán)隊(duì)得以攀登AI高峰。
這些技術(shù)路徑上的創(chuàng)新，等于是用聰明才智破解了過(guò)去只有砸錢(qián)才能解決的難題。
曾經(jīng)只有巨頭燒錢(qián)才能鋪就的康莊大道，如今民間高手另辟蹊徑，用技術(shù)巧思抄了近路。

開(kāi)源風(fēng)暴的經(jīng)濟(jì)學(xué)沖擊
當(dāng)技術(shù)壁壘被攻克，開(kāi)源路線在經(jīng)濟(jì)層面的優(yōu)勢(shì)便愈發(fā)凸顯。
K2 Thinking的模型權(quán)重可在相應(yīng)許可證條款下自由下載部署。
這與OpenAI等閉源模式形成鮮明對(duì)比，它們的模型被封藏于云端，只能通過(guò)昂貴API租用它們的大腦。
以K2 Thinking為例，其官方提供的API價(jià)格是每百萬(wàn)輸入token收費(fèi)4元（命中緩存時(shí)更低至1元）、輸出token16元。

相比之下， OpenAI的GPT-5 API價(jià)格約為每百萬(wàn)輸入token收1.25美元（約9元），輸出token高達(dá)10美元（約71元）。

換算下來(lái) ，同樣百萬(wàn)token的處理， K2 Thinking的費(fèi)用僅為GPT-5的十分之一不到。
對(duì)開(kāi)發(fā)者和企業(yè)而言，這無(wú)疑極具誘惑力，更何況K2完全可以本地部署，不愿付API費(fèi)的話，大可以自建服務(wù) 。
正因如此，我們已看到市場(chǎng)正在迅速響應(yīng)：越來(lái)越多AI工具和平臺(tái)開(kāi)始集成K2 Thinking模型，許多開(kāi)發(fā)者在社區(qū)分享如何用K2 Thinking微調(diào)自定義應(yīng)用。
DeepSeek-R1發(fā)布后，其MIT開(kāi)源權(quán)重更是被無(wú)數(shù)開(kāi)源社區(qū)下載、魔改，用于各種插件和研究項(xiàng)目。

甚至政府機(jī)構(gòu)和大型企業(yè)也開(kāi)始重新考慮，與其斥資購(gòu)買(mǎi)封閉模型的算力配額，不如采用開(kāi)源模型作為基礎(chǔ) ，掌控自主可控的AI能力——尤其當(dāng)這些開(kāi)源模型已經(jīng)足夠好且成本低廉。
這種用腳投票的風(fēng)向轉(zhuǎn)變，不僅出現(xiàn)在技術(shù)圈，更在資本圈引發(fā)連鎖反應(yīng)：OpenAI此前天價(jià)的數(shù)據(jù)中心投資承諾，正面對(duì)質(zhì)疑和壓力。
OpenAI高管甚至在公共場(chǎng)合暗示需要政府貸款支持，事后又忙不迭出來(lái)「滅火」澄清不尋求政府背書(shū) ，以平息外界對(duì)其燒錢(qián)計(jì)劃的擔(dān)憂。
當(dāng)巨頭為融資「續(xù)命」四處游說(shuō)時(shí) ，開(kāi)源對(duì)手們正用實(shí)際成績(jī)證明，也許根本不需要那么多錢(qián) ，也能把事情辦成。

行業(yè)敘事的改寫(xiě)與泡沫的冷卻
DeepSeek和Kimi K2 Thinking帶來(lái)的并非單純的「追趕」，而更像是一場(chǎng)對(duì)舊路線的證偽。
過(guò)去，封閉巨頭們的護(hù)城河建立在一種假設(shè)之上：只有不斷投入數(shù)量級(jí)增長(zhǎng)的資金和算力，才能保持模型性能的領(lǐng)先。
這一假設(shè)曾讓OpenAI們?cè)谫Y本市場(chǎng)上如日中天，甚至形成了某種估值泡沫， AI公司和底層芯片廠商的價(jià)值被無(wú)限推高，因?yàn)樗腥讼嘈艧X(qián)會(huì)帶來(lái)奇跡。
然而當(dāng)開(kāi)源挑戰(zhàn)者以區(qū)區(qū)百萬(wàn)量級(jí)美元達(dá)到同類水準(zhǔn) ，這個(gè)故事的結(jié)局便不再那么線性。
事實(shí)證明，「性能領(lǐng)先的最后20%」或許并非大多數(shù)用戶真正需要的，尤其如果為此要付出十倍乃至百倍的價(jià)格。
從普通消費(fèi)者到中小企業(yè) ，更青睞的是「夠用+便宜」的實(shí)惠。
OpenAI等公司無(wú)疑依然握有行業(yè)頂尖的研究人才和技術(shù)積累，但他們?cè)匐y宣稱自己的路線是「唯一正確且必不可少」的。
行業(yè)敘事正在轉(zhuǎn)向：與其癡迷于砸錢(qián)堆出更大模型，不如在架構(gòu)創(chuàng)新和工程穩(wěn)定性上下功夫，以換取成本效率和開(kāi)放生態(tài) 。
投資者也日趨清醒，過(guò)去見(jiàn)誰(shuí)談AI就砸錢(qián)的狂熱減退了許多，現(xiàn)在更關(guān)注實(shí)際效能和商業(yè)可行性。
【小成本DeepSeek和Kimi，正攻破奧特曼的「算力護(hù)城河」】最危險(xiǎn)的對(duì)手，不是那個(gè)跟你拼燒錢(qián)的人，而是那個(gè)證明根本不需要燒那么多錢(qián)的人。

小成本DeepSeek和Kimi，正攻破奧特曼的「算力護(hù)城河」

推薦閱讀

怎么查看寬帶賬號(hào)密碼

中學(xué)生使用手機(jī)的危害手抄報(bào) 中學(xué)生使用手機(jī)的危害手抄報(bào)內(nèi)容

腦供血不足會(huì)有什么癥狀

iPhone蘋(píng)果手機(jī)不設(shè)置id賬號(hào)可以用嗎？

廣州越秀區(qū)登峰街社區(qū)HPV疫苗預(yù)約包三針嗎？

世界第一個(gè)冷凍人解凍成功了嗎

手帳本怎么做手帳本怎么做簡(jiǎn)單又漂亮

孔明燈的由來(lái)簡(jiǎn)單介紹孔明燈的由來(lái)

微信dwg文件怎么打開(kāi)

森林防火小常識(shí)8條

小編教你蘋(píng)果8中將網(wǎng)頁(yè)變成pdf格式的操作步驟。

江西明月山門(mén)票是多少，很急啊現(xiàn)在明月山的門(mén)票是多少學(xué)生證可以借嗎身份證可不可以

beastsolo3怎么連藍(lán)牙

金毛和拉布拉多的區(qū)別？教你怎么分辨它們

肯定能找回來(lái) qq被盜了怎么找回來(lái)？最快解決辦法給到你

定遠(yuǎn)合肥高鐵時(shí)刻表查詢，從定遠(yuǎn)到合肥的動(dòng)車(chē)有嗎