從囤卡競賽到全棧競爭:GPU云賽道在卷什么?

從囤卡競賽到全棧競爭:GPU云賽道在卷什么?

文章圖片

從囤卡競賽到全棧競爭:GPU云賽道在卷什么?

文章圖片

從囤卡競賽到全棧競爭:GPU云賽道在卷什么?

文章圖片

從囤卡競賽到全棧競爭:GPU云賽道在卷什么?

文章圖片

從囤卡競賽到全棧競爭:GPU云賽道在卷什么?

文章圖片

從囤卡競賽到全棧競爭:GPU云賽道在卷什么?

文章圖片

從囤卡競賽到全棧競爭:GPU云賽道在卷什么?

文章圖片



昨天發的《云廠商的AI決戰》里 , 我們聊到一個關鍵判斷:今天的AI云競爭 , 早就不是比誰家GPU多、Token跑得快了 , 而是進入了全棧AI Infra的深水區 。
今天咱們就順著這個思路再往下探一層:既然勝負手不在表面指標 , 而在底層效率 , 那到底該怎么評估一家云廠商是不是真的能打?
回望2025年 , AI Infra的發展已經清晰地走過了一個關鍵拐點 。 過去一年 , 模型能力的躍遷不再只是參數規模的競賽 , 而是越來越多地被算力可獲得性、成本結構、部署效率所重新定義 。 頭部廠商在GPU云、算力調度、異構集群以及工程化落地能力上的差距逐漸拉大 , 而這種分化正決定著誰有能力真正承載下一階段的AI商業化浪潮 。
在這一進程中 , 一些曾被廣泛依賴的評估標準開始顯露出其局限性 。

比如 , Token這個易于量化、便于傳播的指標 , 一度被部分廠商視為衡量AI云市場的北極星 。 但現實卻給出了不同的答案:國家統計局最新數據顯示 , 2025年中國日均Token消耗量已從年初的約1000億飆升至30萬億 。 但據全球權威技術市場研究機構Omdia統計 , 按Token計費的MaaS服務收入僅占整個AI云市場規模的不到1% 。
究其原因 , 大量發生在GPU云租賃、私有化部署乃至端側設備的AI算力消耗根本無法被MaaS平臺統計 。 將Token等同于AI云本身 , 不僅忽略了中國數字化市場復雜多樣的需求 , 更可能誤判了真正的技術護城河 。 同樣具有誤導性的還有對硬件數量的迷信 , GPU的絕對數量并不等于穩定、高效的可用算力 , 某頭部云廠商的模型市場中曾出現17.7%的GPU算力僅用于處理1.35%的極少量請求 , 資源浪費嚴重 。
由此可見 , 評估一家云廠商的GPU云實力 , 不能只看Token消耗量或GPU卡數 , 而應關注其底層系統的整體效率與可控性 。 而要實現這種效率與可控性 , 往往離不開對基礎設施的深度掌控 。

正是在這一背景下 , 具備自研GPU云能力的廠商逐漸顯現出結構性優勢:它們不僅能規避通用硬件的性能瓶頸與供應鏈風險 , 還能在軟硬協同、調度優化和成本控制上實現更高維度的突破 。
于是 , 當堆砌硬件的競賽逐漸失效、大模型進入工程期后 , 一個更深刻的問題浮出水面:云廠商選擇什么樣的AI Infra的建設路徑才真的可持續?對于志在擁抱AI的企業而言 , 決定其智能化進程成敗的究竟是采購了多少塊芯片 , 還是選擇一個具備怎樣系統性效率的合作伙伴?

在模型快速發展的關鍵時期 , 打開任何一篇關于AI基礎設施的報道 , 幾乎都會看到這樣的討論:誰又拿到了多少H20或B200?哪家云廠商降價了多少?卡型、規格、單價、交付周期……似乎只要擁有更多高端GPU , 就能在這場AI競賽中勝出 。
這種“唯卡論”的敘事在過去一段時間確實主導了市場情緒 。 畢竟 , 在大模型訓練高度依賴算力的背景下 , 硬件似乎成了最直觀的勝負手 。 然而 , 隨著行業從狂熱擴張走向理性落地 , 越來越多的實踐案例開始揭示一個行業現實:擁有算力 , 不等于能用好算力 。 AI算力的價值 , 最終要通過高效、穩定、可規模化的服務形式釋放出來 。
而這其中最關鍵的板塊就是GPU云 。 GPU云作為AI基礎設施的核心 , 其競賽邏輯已經發生了根本性變革 。
一方面 , 高端GPU供應鏈高度集中且波動劇烈 。 市場機構IDC統計數據顯示 , 英偉達在訓練級AI芯片(如H100、H200、B200)領域占據全球超90%的市場份額 , 而在中國市場 , 受出口管制影響 , H20、L20等合規型號供應持續緊張 , 價格波動劇烈 , 交付周期長達數月 , 即便企業愿意支付溢價 , 也未必能及時拿到所需資源 。

但比拿不到更棘手的 , 是“用不好” 。 以近期備受關注的英偉達H200為例 , 盡管已有消息傳出春節前可交付數萬顆的消息 , 但即便交易成行 , H200也早已不是技術前沿 。 它的下一代Blackwell系列(如B200/GB200)性能更高 。 更重要的是 , 即便企業成功采購到H200 , 若缺乏底層系統整合能力 , 依然難以發揮其潛力 。
【從囤卡競賽到全棧競爭:GPU云賽道在卷什么?】許多智算中心直接部署整機柜設備 , 卻在上層面臨調度系統割裂、通信協議不統一、驅動與框架適配粗糙等問題 , 導致跨節點任務調度效率低下、故障恢復緩慢、資源碎片化嚴重 。 結果往往是顯存占滿 , 算力空轉 。
這一矛盾在現實中尤為突出 。 在“2025云網智聯大會”上 , SNAI推委會榮譽主席韋樂平指出 , 當前國內智算中心已超280個 , 看似算力充沛 , 實則GPU平均利用率不足30% , 且分布極不均衡 。 大量設施長期閑置或低效運行 , 暴露出典型的“有硬件、無體系”短板 。 而隨著MoE(Mixture of Experts)等新一代大模型架構的普及 , 對算力調度精度、通信效率和資源彈性的要求更是大幅提升 , 這也進一步放大了能用與好用之間的鴻溝 。
問題顯然不在芯片本身 , 而在于缺少一套自主可控、軟硬協同的全棧技術底座 。 今天的GPU云競爭早已超越資源囤積階段 , 進入系統工程深水區 , 成為芯片、集群、調度、穩定性與商業化服務有機整合的綜合博弈 。
也正是在這樣的行業轉折點上 , 百度昆侖芯、華為昇騰等國產AI芯片開始嶄露頭角 , 贏得越來越多頭部客戶的實際認可 。 國際權威咨詢機構弗若斯特沙利文發布的《2025年中國GPU云市場研究報告》清晰捕捉到了這一趨勢 。 報告首次以“自研AI加速芯片 + 萬卡級算力集群 + 云服務商業化能力”為三大核心維度 , 對中國GPU云市場進行系統評估 。

報告指出 , 2025年上半年的中國自研GPU云市場中 , 百度智能云以40.4%的市場份額位居第一 , 華為云以29.5%份額位居第二 , 其他廠商合計份額為30.1% 。 值得注意的是 , 此前百度智能云已經連續六年穩居AI云領域榜首 。
乍看之下 , 這似乎只是又一份廠商排名 , 但結合當下GPU云市場的現實 , 這個第一其實揭示了一個更深層的趨勢 , AI基礎設施的競爭正在從搶卡轉向用卡 , 以及更深層次、更系統性的布局 。
沿著這條路徑 , 我們可以以百度智能云這個領先的案例去看一看 , 為什么GPU云競賽的焦點不再是某一個單一指標 , 而是轉變成了一整個系統工程的轉型 。

自研AI基礎設施從來不是一條容易走的路 , 投入大、周期長、技術風險高 , 任何一個環節都可能讓前期努力付諸東流 , 且短期內難以看到商業回報 。 正因如此 , 盡管“全棧自研”被廣泛視為長期競爭力的關鍵 , 真正躬身入局的玩家卻寥寥無幾 。 目前 , 在中國AI云市場中 , 僅有百度智能云、華為云等少數頭部廠商選擇堅持這一路徑 , 并形成了從底層算力到上層應用的高效閉環 。
回溯他們脫穎而出的路徑 , 一個關鍵問題浮現出來:領先 , 究竟源于什么?
根據報告來看 , 答案并非某個單點技術的突破 , 而是一整套關于自研芯片、集群規模、云服務能力的長期實踐 。
以百度智能云為例 , 從硬件底層開始 , 其就選擇從自研AI芯片昆侖芯切入 , 為整個算力體系預留了持續演進的空間 。 算力架構不再被通用硬件鎖定 , 而是能圍繞真實模型需求動態優化 。 值得注意的是 , 昆侖芯的研發起源于十余年前百度對大規模搜索場景下FPGA加速器的深度探索 , 其從誕生之初 , 就帶有為AI基礎設施服務的強烈基因 。 目前 , 昆侖芯已完成數萬卡的規模化部署 , 服務于招商銀行、南方電網、中國鋼研等上百家行業客戶 。

目前昆侖芯不僅能大規模支撐百度內部的推理業務 , 在訓練層面也取得了一定的成績 , 而前不久發布的全新一代AI芯片 , 在面向大規模推理場景進行深度優化的同時 , 也將推出更適配多模態模型超大規模訓推的產品 , 為后續的算力演進預留空間 。
芯片只是起點 , 要釋放規模算力的真正價值 , 還需要更高維度的系統整合 。 為此 , 在節點層 , 百度智能云進一步構建了百度天池超節點 , 通過更高密度的算力組織與更低延遲的互聯 , 為大規模并行計算提供穩定基礎 。 根據百度智能云官方披露 , 相比上一代產品 , 天池256超節點的整體性能提升50% , 天池512超節點單個超節點即可支撐萬億參數模型訓練 , 大幅降低跨節點通信開銷與任務碎片化 。

單節點的強悍能夠進一步提升算力使用的性價比 , 也讓集群的建設更加快速 。 2025年4月 , 百度智能云就已經點亮了昆侖芯三萬卡集群 , 在去年11月的百度世界大會上 , 百度智能云表示還將不斷擴大集群規模 , 未來目標推向百萬級 。
隨著算力規模邁過萬卡向更高層次進發 , 挑戰也從\"有沒有算力\"轉向\"能不能用好算力\" 。
面對大規模的模型訓推需求 , 在高并發、高負載的情況下保持可預期的性能表現至關重要 。 在最上層 , 上述那些分散在芯片 , 超節點與集群層面的能力被百度百舸AI計算平臺上進一步整合、放大 , 并以云服務的形式高效輸出 。
據悉 , 百度百舸5.0在深度適配昆侖芯的同時 , 也支持多款國內外主流芯片 , 在超大規模集群上的有效訓練時長超過95% , 從結果來看 , 其在異構算力調度和集群穩定性方面已相當成熟 。 不只是穩定性 , 百度百舸定位面向大模型訓推一體化的AI基礎設施 , 能夠通過領先的AI工程加速能力 , 覆蓋企業在模型開發、訓練、部署及推理的全流程需求 , 為AI落地提供高效易用的服務 。

這種多維度、全棧式的能力建設 , 顯著提升了對客戶多樣化、復雜化AI需求的支撐能力 。 目前 , 百度智能云已服務超過65%的央企、全部系統重要性銀行、95%的主流車企、一半以上的頭部游戲公司 , 以及眾多走在前沿的具身智能企業 。 這些對穩定性、安全性和效率要求極高的客戶 , 用真金白銀投出了信任票 。
可以說 , 百度智能云的全棧優勢再次證明了研發為王、底層自研這種長期主義邏輯 。 在技術深水區 , 沒有捷徑可走 。 唯有堅持底層自研、系統思維與工程落地三者合一 , 才能構筑真正難以逾越的競爭壁壘 。 如今市場份額位居第一 , 本質上就是對這條路線已然跑通的有力驗證 。

站在產業演進的高度回望 , GPU云的競爭早已超越技術參數與市場份額的表層較量 , 其真正價值在于 , 能否成為千行百業智能化轉型的可靠底座 。
隨著模型智能的進一步提升 , 大規模推理需求開始對GPU云提出了更高的要求 。 各行各業正在將AI融入業務流程 , 具身智能、AI Agent等新興應用的發展 , 對AI基礎設施提出了更為苛刻的需求 。 這不僅僅是峰值算力 , 還包括低延遲響應、高通信效率、確定性調度以及長期可用性 。
過去幾年 , 大模型從實驗室走向工廠、電網、銀行和汽車生產線 。 但當 AI 從“試驗性能力”進入“業務基礎設施”階段 , 產業側提出的要求發生了本質變化 。
產業客戶要的從來都不只是最強算力 , 更是穩定、安全、可預期、可負擔的智能服務 。 他們無法承受因調度抖動導致訓練中斷 , 不能接受因芯片斷供而業務停擺 , 更難以承擔高昂且不可控的推理成本 。 在這樣的現實需求面前 , 單純堆砌英偉達GPU的“快餐式”方案顯得力不從心 。 硬件再強 , 若缺乏底層協同與長期演進能力 , 終究難以支撐產業級AI的持續運行 。
也正是在這一現實約束下 , 國產GPU云的縱深價值開始顯現 , 云廠商需要通過從芯片到超節點 , 再到集群與云服務的全棧布局 , 構建高度協同、自主可控的AI基礎設施體系 。 這種系統性能力 , 不僅降低了大規模AI應用的工程門檻 , 更讓企業在面對快速演進的技術環境時 , 擁有了更強的適應力與確定性 。

例如 , 百度天池超節點可將單卡性能提升95% , 單實例推理性能提升高達8倍;華為昇騰910B的FP16算力達到256 TFLOPS , 寒武紀思元590在邊緣端推理能跑出128 TOPS 。 這些性能優勢使得國產芯片在實際應用中展現出強大的競爭力 。
實際業務中 , 國產AI云已經深度結合進產業之中 , 百度智能云以昆侖芯P800為核心 , 結合百度百舸AI計算平臺5.0 , 為招商銀行提供高效、穩定的算力支持 , 推動大模型在金融場景的深度應用;百度智能云與長安汽車共建長安汽車智算中心 , 為深藍汽車等在售全系車型提供實時推理算力支持 , 總算力規模已超1000PFLOPs 。
對企業和開發者而言 , 選擇GPU云 , 本質上是在選擇未來數年AI演進的底座 。 從自研芯片 , 到超節點算力組織 , 再到云平臺級的統一調度與服務輸出 , 這種縱向一體化能力 , 決定了這一底座是否穩定、可控、可持續 。 它降低的不只是技術門檻 , 更是產業在使用AI過程中面臨的不確定性成本 。
一個經過全棧優化、具備長期演進能力的基礎設施 , 不僅能支撐當前模型訓練與推理需求 , 更能為未來的架構升級、成本優化和業務創新預留空間 。 底座越牢固 , 底層加持越顯著 , 在應用層和模型層構建的差異化優勢也就越難以被復制 。

更重要的是 , 這種自研路徑為中國產業保留了技術主動權 。 在全球供應鏈高度不確定的背景下 , 一個能同時駕馭國產芯片與國際硬件、并實現高效調度的平臺 , 意味著企業不必在安全與性能之間做痛苦取舍 。 AI由此真正從可選項變為必選項 。
因此 , GPU云的競爭終局 , 不是資源規模的簡單比拼 , 而是系統效率與長期價值的較量 。 在這場比耐力、比深度、比工程定力的長跑中 , 真正能將算力轉化為穩定生產力的一方 , 才有望笑到最后 , 托起最廣闊的產業未來 。

    推薦閱讀