萬億美元大餅背后,英偉達也開始焦慮了

萬億美元大餅背后,英偉達也開始焦慮了

文章圖片

萬億美元大餅背后,英偉達也開始焦慮了

文章圖片




推理領域有沒有CUDA護城河?
文|任曉漁 周享玥
編|徐鑫
“到2027年 , 市場對Blackwell和Vera Rubin系統的訂單需求將帶來至少1 萬億美元的營收 。 ”
又到一年GTC 。 今年的“科技春晚”上 , 身著皮衣的老黃又發了新的“核彈” , 同時也帶來了一個前所未有的爆炸性業績預測 。 這個驚人的數字 , 延續了黃仁勛一貫的對AI時代基礎設施持續增長的樂觀和信心 , 也是在向市場宣告英偉達的增長故事遠未結束 。
但資本市場的反應略顯冷淡 。 英偉達股價應聲跳漲4.3%后又下跌 , 最終收漲1.2% 。 前所未有的業績預測 , 并沒有催化成市場的熱情 。
癥結在于 , 在正在爆發的推理算力市場上 , 游戲規則正在起變化 。 低延遲、高能效比和應用成本正取代高性能、高吞吐、大內存、高帶寬等指標 , 成為主導算力市場的核心因素 。
結構性巨變下 , 過去三年里統治AI算力的絕對王者——英偉達 , 正在遭遇前所未有的離心力 。 除了傳統芯片廠商 , 英偉達的一眾傳統大客戶如亞馬遜、Meta甚至OpenAI都在加速自研芯片進程 。 同時 , 中國市場是推理需求的大戶 , 目前國產算力的推理成本也極具競爭力 。
為應對前所未有的推理焦慮 , 英偉達在今年GTC大會發布了一系列新品來適應推理需求 , 并用AI工廠的敘事來重塑自身護城河 。 不過 , 當下外界仍然在觀察和觀望這些動向的效果 。
可以想見的是 , 這場圍繞著護城河和壁壘的保護戰 , 才剛剛打響 。
01
推理時代的“離心”焦慮
英偉達正遭遇一場巨大的“離心運動” 。 多路玩家爭搶推理市場形成強大外向拉力 , 正沖擊這家巨頭在訓練市場的統治力 。
源頭在于 , AI產業正在發生巨變 , 推理市場正超越訓練市場 , 成為AI算力的主戰場 。
正如老黃自己在今年的GTC大會演講中的斷言 , “推理拐點已至” 。 這是一個正在爆發中的巨大市場 。 IDC預測 , 到2027年 , 中國推理算力占整體算力的比例將突破 70% , 在全球市場 , 智能體使用量將增長10倍 , 推理需求將增長1000倍 。 Deloitte也在一份報告中指出 , 2026年推理工作負載已占全部AI算力三分之二 , 而2023年的三分之一到2025年的一半 , 實現了快速躍升 。
但這個高潛爆發市場 , 推理任務對算力的要求與訓練階段存在根本性差異 。
【萬億美元大餅背后,英偉達也開始焦慮了】RISC架構奠基人David Patterson與Google DeepMind高級工程師馬曉宇今年年初在一篇論文中提到 , 訓練階段需要大規模并行計算來處理海量數據 。 如單次GPT-4級別的訓練需要25000張A100 GPU連續運行90天 , 是比拼峰值算力與資金的“軍備競賽” 。
但推理階段的邏輯完全不同 , 它本質是順序化的自回歸過程 , 每次只能生成一個token , 模型參數需要頻繁從GPU顯存加載到計算單元 , 可用內存帶寬才是token生成速度的決定因素 , 這使得內存帶寬和端到端延遲成為核心瓶頸 。
另外 , 在成本結構上 , 訓練時代是“一次性爆發”模式 , 推理則是持續性失血 。 每天數十億次請求下 , AI應用廠商們會十分重視成本控制 , “每瓦特每美元的token產出”關乎AI應用的落地 。
針對內存帶寬和端到端延遲及成本功耗問題 , 業界有共識 , 定制芯片可以針對特定任務做優化 , 相比通用GPU有更好的表現 。
目前 , 有多股力量都在進軍推理算力市場 。

傳統的芯片廠商們如AMD和Intel都沒有缺席 , 它們早已看中了推理市場的結構性增長機會 。 其中 , AMD憑借MI350系列(含MI355X)的強大內存和推理性能 , 在總擁有成本上形成優勢 。 權威供應鏈統計顯示 , Meta在2025年已采購17.3萬片MI300系列芯片(后續將大規模轉向MI350) , 微軟采購9.6萬片 。 Oracle也有最多部署13.1萬顆MI355X的大單承諾 。 同時 , Intel的Gaudi 3加速器正在企業級和云端推理市場快速突圍 。
頭部云廠商此前是英偉達數據中心業務的主要收入貢獻者 , 但在成本控制與供應鏈自主的考量下 , 正大力開啟芯片自研動作 。 對這些大廠而言 , 在每天數十億次推理請求的龐大規模下 , 自研成本更低的定制芯片不僅能每年節省數十億美元 , 還能帶來關鍵的供應鏈靈活性 。
目前 , 從谷歌到亞馬遜都已與博通深度合作 , 完成推理芯片的設計和量產 。 谷歌的TPU經過多次迭代 , 已獲得Anthropic(部署超100萬顆)和Meta(2026年2月簽署數十億美元多年期租用協議)的訂單 。 而亞馬遜的Trainium獲得OpenAI 2GW容量的訂單 , Anthropic也向Amazon伸出了橄欖枝 。 Meta自研的MTIA系列(含MTIA 300及后續版本)已部署數十萬顆芯片 , 全面支撐全平臺推薦系統推理 。
與此同時 , 一些專業化推理芯片公司也在加速發力這一市場 。 例如已被英偉達2025年底收購整合的Groq , 其LPU因首token延遲遠低于GPU及定價更低等因素 , 在2025年曾吸引大量開發者與企業嘗試 。
除了這些對手 , 中國作為推理市場大客戶 , 國內的推理算力生態也在崛起 。 業界觀察到 , 目前國內已經從華為一家演化為百花齊放局面 , 市面上壁仞的推理專用芯片極具成本優勢 , 沐曦、摩爾線程等廠商都已經在AI智能體企業圈內大受推薦 。
多路對手圍攻之下 , 市場調研機構認為 , AI服務器市場將從英偉達“一家獨大”走向“多元化競爭” 。 XPU(既非GPU也非CPU的專用加速器)的增長率將超過GPU 。 科技分析機構byteiota綜合分析師觀點甚至指出 , 到2028年英偉達在推理市場份額將從80%大幅下降 , 被ASIC蠶食70~75%的生產推理工作負載 。
“推理領域沒有 CUDA 護城河(There is no CUDA moat in inference) 。 ”華爾街日報日前報道過新興芯片廠商Cerebras Systems的CEO Andrew Feldman的看法 。 某種程度上這可能也是英偉達當下最大的焦慮來源 。
02
劍指萬億市場 , 英偉達的護城河守衛戰
不過同時 , 英偉達也采取了一系列動作和舉措來應對推理時代挑戰 。 GTC大會上 , 無論是老黃的演講內容還是一系列新品和動作 , 都展示了英偉達對推理時代的野心 。
兩個多小時的演講中 , 有人統計過 , “訓練(training)”被提到僅10余次 , “推理(inference)”一詞則出現了將近40次 。
他還用一萬億美金營收預測數據 , 來向外界表明 , 英偉達在推理時代將繼續保持存在感——
“去年此時我提到過 , 到2026年 , Blackwell 和 Rubin 的需求規模有望達到5000億美元 。 今天 , 我想告訴大家:站在這里 , 到2027年 , 我們看到的高確定性需求 , 至少已經是一萬億美元級別 。 而且我相信 , 真實需求還會更高” 。

而這背后 , 老黃提到從2025年開始 , 英偉達就在全力押注推理能力 , 確保英偉達不僅擅長訓練 , 也擅長訓練后、擅長推理、擅長整個 AI 生命周期 。
本次大會 , 英偉達展示了英偉達應對推理時代挑戰的完整戰略布局 , 黃仁勛將推理過程拆解為“prefill”(預填充)和“decode”(解碼)兩個截然不同的階段 , 并為每個階段配備專門優化的硬件架構 。
有人點評這是在通過對推理計算的本質重新定義 , 來奪回英偉達在推理時代的話語權 。
新一代旗艦 GPU——Vera Rubin GPU , 專門負責“prefill”(預填充)階段 , 推理性能相比上一代提升3.3~5 倍 , 能將用戶請求轉化為 token 。
Groq 3 LPX的加入 , 被視為英偉達補齊低時延推理短板的關鍵一步 。 2025年12月 , 英偉達斥資200億美元 , 通過非傳統收購整合了Groq的低延遲推理技術及核心團隊 , 這筆交易成為其歷史上規模最大的一筆 。 Groq主打極致低延遲與性能確定性 , 其創始人Jonathan Ross是谷歌TPU的關鍵推手 。
Groq 3 LPU也是雙方合作后的首款產品 , 由三星代工 , 預計2026年Q3出貨 。 這是一款專為decode階段設計的芯片 , 它繞開了傳統GPU的HBM內存瓶頸 , 首token延遲低于0.1毫秒 , 推理性能提升達35倍 。 黃仁勛還表示“GPU負責prefill、LPU負責decode”的分工是推理時代的最優架構 。
智能體時代到來 , 英偉達還專為智能體工作流設計打造了全新CPU——Vera CPU , 采用常用于手機、平板等的LPDDR5低功耗內存 , 將定位從通用算力處理器轉向智能體任務調度員 , 不再盲目堆砌內存帶寬 , 而是以更低功耗實現數據高效、精準調度 。 黃仁勛稱 , 其性能是全球主流CPU的兩倍 , 將是一項價值數十億美元級的業務 , “我們從未想過會單獨銷售 CPU , 但現在確實賣得很多 。 ”
由此 , 英偉達也打破了通用GPU打天下的敘事 , 轉向了場景化分工 。 目前 , 整套系統中形成了分工三角:GPU 負責重計算 , CPU 負責調度編排 , LPU負責極速輸出 。 再配合英偉達自研的Dynamo調度軟件 , 可靈活應對不同AI任務對成本、延遲和吞吐量的復雜要求 , 在高價值Token生成場景中 , 每兆瓦Token吞吐量較上一代Blackwell提升35倍 。
黃仁勛還進一步給出部署建議:高吞吐負載可100%使用Vera Rubin;編碼、高價值工程類Token生成負載 , 可配置25%Groq與75%Vera Rubin的組合 。

除了軟硬件層面的發布 , 英偉達還構建了一個新的敘事 , “AI工廠”——
“我們不是單獨優化芯片 , 而是在做極端協同設計:芯片、系統、網絡、軟件、算法、部署方式 , 全棧協同 。 未來 , 所有云服務商、AI 公司和大型企業 , 都會像今天研究制造業產線一樣 , 研究自己的 token 工廠效率 。 因為數據中心已經不再只是‘存放文件的地方’ , 而是一個生產 token 的工廠 。 token , 正在成為新的商品;而 AI 計算 , 正在變成新的收入來源 。 ”
這套敘事下 , 競爭不再是單一的芯片維度 , 而是包含了從芯片到液冷機架到網絡互聯和AI工廠操作系統 , 英偉達占據了從能源、芯片、基礎設施到模型的多個層級 , 客戶能“一站式”獲得訓練+推理全生命周期的最優成本 。 黃仁勛還闡述“Token工廠經濟學” , 強調“每瓦特每美元的token產出”這一全新衡量標準 。
外界認為 , 英偉達正通過一整套交付模式 , 用系統優勢來用抹平單一維度的成本優勢 , 從而應對推理市場競爭 。
2026年GTC , 英偉達仍然是AI算力市場的主導者 , 不過它也正進入一場防御性戰事的開場 。 這場推理保衛戰 , 也是新時代的生存和主導權之戰 , 一切才剛剛開始 。

    推薦閱讀