同質化的GPU云市場,誰能逃離內卷?

同質化的GPU云市場,誰能逃離內卷?

文章圖片

【同質化的GPU云市場,誰能逃離內卷?】同質化的GPU云市場,誰能逃離內卷?

文章圖片

同質化的GPU云市場,誰能逃離內卷?

文章圖片

同質化的GPU云市場,誰能逃離內卷?

文章圖片

同質化的GPU云市場,誰能逃離內卷?

文章圖片

同質化的GPU云市場,誰能逃離內卷?

文章圖片

同質化的GPU云市場,誰能逃離內卷?

文章圖片

同質化的GPU云市場,誰能逃離內卷?


“一個聰明人從敵人那里得到的東西 , 比從一個傻瓜朋友那里得到的東西更多 。 ”
——哲學家格拉西安
這句格言 , 正在AI領域被現實驗證 。 美國的限制政策總會告訴我們 , 哪些東西是發展AI至關重要的 。
2024年10月 , 美國商務部再次升級制裁 , 限制中國實體訪問美國的云服務 , 理由是“防止利用美國基礎設施訓練AI模型” 。 這標志著美國對華算力基礎設施的“雙管齊下”:先斷GPU芯片 , 再封云服務 , 最終目標是讓中國AI陷入算力斷崖 。
有讀者會問 , DeepSeek降低了單模型算力需求 , 把英偉達股價都打下來了 , 怎么AI算力仍然短缺呢?

一方面是總量在增長 。 正如杰文斯悖論所說 , 技術進步降低了使用成本時 , 資源的總消耗量反而會增加 。 比如燃油效率提高了更省油 , 但隨著開車變得便宜 , 人們就會更多選擇開車 , 結果導致汽油的總消耗量增加 。 AI也是如此 , 模型門檻下降導致智能化應用多了 , 總算力需求也就更大了 。
此外 , 還跟算力集群的利用率有關 。 一位銀行總工程師分享到 , 自家搭建的混合異構算力平臺 , 高峰期算力集群利用率能達到60%就算優秀了 , 花大價錢采購的算卡資源 , 很多都被浪費或閑置了 , 加上配套系統與運維成本 , 整個資金投入非常大 。
既然自建算力集群買不到卡、成本高 , 從云端獲取算力的GPU云服務 , 就成了絕大多數企業用好、用活大模型的最佳選擇 。
那么 , GPU云服務作為AI算力的另一根支柱 , 中國準備好了嗎?

從云端獲取算力 , 理想很豐滿 , 但現實很骨感 。 GPU云服務還沒有被企業普遍接受 。 一位金融從業者就告訴我們 , 整個金融行業對GPU 云的認知還比較模糊 , 大家習慣了傳統的硬件采購模式 , 對云服務的接受度并不高 。
為什么不高?這有兩個原因:
一是同質化嚴重 。 對比市面上的GPU云解決方案 , 會發現算力層、平臺層都高度同質化 , 采用的GPU芯片大同小異 , 平臺功能也差不多 。 以至于有人覺得GPU云服務商提供的軟件沒什么太大價值 。 結果就是GPU云市場 , 目前的競爭主要是卷低價 。
二是創新不足 。 同質化并不意味著GPU云服務的痛點和挑戰都已經被解決了 , 實際上 , 同質化正是創新不足的表現 。 比如說 , 隨著大模型的參數規模擴大 , 一個千卡集群的百P算力 , 訓一個類Sora大模型就被占滿了 , 其他客戶需要算力 , 就得擴大集群規模 , 但AI芯片是很敏感的 , 從千卡到萬卡、超萬卡 , 故障率和運維難度也快速上升 , 怎么保證集群的穩定性 , 不能動不動就中斷重寫checkpoint?

花了大價錢買的GPU卡 , 結果有一半都在“摸魚” , 怎么讓資源管理更精益 , 投資不浪費?
算卡供應鏈的不穩定 , 很多集群的架構不同、批次不同 , 無法合池訓練 , 存在資源墻怎么打破?
國產芯片的適配難 , 新模型的訓練時長比英偉達方案多出好幾倍 , 一直沿用的訓練推理一體化流程 , 在異構算力環境下漏洞百出 , 又該怎么辦?
不難看到 , 不是行業用戶不想用GPU云服務 , 而是市面上的解決方案都趨于同質化 , 過早開始卷價格 。 這種情況 , 與內卷化的定義異常契合 。 就像農業發展到一個確定形式之后 , 便停滯不前或無法向更高級轉化 。
GPU云市場 , 還處于方興未艾的發展初期 , 各行各業都需要上云用算來進行AI訓推 , 有巨大的市場空間等待打開 , 不應過早跌入同質化、內卷化的泥潭 。

但要打破內卷 , 就得拿出有壁壘的差異化解決方案 , 讓GPU云算力真正降本增效 , 從而帶動企業用戶的增長 , 以及整個GPU云的產業升級 , 就像一塊耕地 , 通過優化種植技術和精耕細作 , 進一步提高糧食畝產量 , 從而避免卷入“谷賤傷農”的價格戰內卷 。
向技術要答案 , 一直是百度的特點 。 AI時代 , 百度智能云也憑借AI基礎設施和技術能力在云市場異軍突起 , 率先點亮了國產三萬卡GPU集群 , 并且實現了幾乎無損的混合訓練能力 , 集群利用率高達95%以上 。 憑借GPU云領域的突出能力 , 百度智能云成為超半數央企的選擇 。
我們就以百度智能云為例 , 拆解一下GPU云逃離內卷的技術密碼 。

破解GPU云市場的內卷難題 , 必然要改變傳統集群規模拓展難、故障率高、資源利用率低等問題 , 那就要從基礎設施下功夫 。
具體來說 , 百度智能云以技術為工具 , 對GPU集群進行了三重改造 。 讓GPU集群從小農經濟式的粗放經營 , 變成現代農場一樣的規?;⒓s化、精益化生產模式 。
第一重改造:規?;?, 釋放超萬卡集群的澎湃算力 。
“深度思考的大模型 , 業務用著不錯 , 下面要全集團推廣 , 你們盡快給算力擴容吧” , 進入2025年 , 大模型上量成了IT人的一大挑戰 。 因為集群規模擴大一倍 , 故障率能飆升好幾倍 , 而實際運算效率卻出現了邊際遞減 。 如果集群是由不同城市的小規模集群互聯來構建的 , 那資源性能損耗就更嚴重了 , 數據時延也會讓在線推理服務的體驗大打折扣 。 如果AI思考一次就得十幾分鐘 , 員工用起來不耐煩 , CTO怎么能不著急上火 。
所以 , 百度智能云在構建規?;疓PU算力集群 , 面臨的首要技術挑戰 , 就是如何提高集群的穩定性 , 降低故障率 , 給性能調優 。

解題思路 , 就是軟硬協同 。 有點類似于NVlink+ CUDA聯手 , 充分釋放N卡算力 。 那百度智能云靠的就是百舸 。 百度百舸是專為AI計算設計的高性能算力平臺 , 讓多個芯片、多個集群都用“普通話” , 實現跨芯片“交流” 。
硬件資源層 , 百舸設計了一套新的物理網絡架構 , 就像是城市里精心規劃的高效路線 , 新一代的HPN網絡規模上支持10萬卡 , 可同時容納十萬卡并行訓練 , 這就為計算資源的高效運行提供了有力保障 , 讓AI模型訓起來更快更穩定 。
集群組件層 , 百舸自研的集合通信庫BCCL , 可以實現GPU、昆侖芯等標準RDMA設備的互聯互通 , 使得通信效果達到最優 。 以前沒有統一溝通方式的時候 , 不同芯片互不打通 , 常常出現混亂 , 那協同工作效率自然就很低了 。 BCC制定了一套統一的通行規則 , 就可以讓芯片高效協作 , 加上自適應并行策略搜索 , 自動規劃出最佳方案 , 就能讓各種硬件充分發揮作用 , 提升多芯混合訓練任務的整體效能 。
訓推加速層 , 百舸在AI加速套件AIAK-LLM中構建了Accelerator抽象層 , 屏蔽硬件差異 , 相當于為多個集群開辟高速路 , 快速通信 , 讓各種硬件都能充分發揮作用 , 高效協作 , 由此來構建極致規模、極致高密和極致互聯的GPU集群 。

想象一下 , 當企業使用萬卡、超萬卡集群時 , 就像一個源源不斷供給養分的算力土壤 , 無論是金融機構處理海量交易數據 , 還是運行復雜的科學計算模型 , 或者是AI智能體實時響應客戶需求 , 都能游刃有余 。
目前 , 百舸已經具備了成熟的10萬卡集群部署和管理能力 , 在橫跨幾十公里的集群上 , 百舸可以把單一訓練任務的性能折損控制在4%以內 , 也讓百度智能云成為GPU云廠商中納管超大規模集群的一個標桿 。
第二重改造:精益化 , PD分離讓AI應用隨時在線 。
如今 , 企業對算力的需求發生了巨大轉變 , 從過去側重于模型訓練 , 逐漸轉向更注重實時性的推理和后訓練階段 , 有點像城市交通發展到了一定階段 , 新路(訓練)就建得少了 , 取而代之的是防止車流擁堵(推理優化) 。
無論是B端用戶還是C端用戶 , 如果大模型思考十幾秒才給回應 , 用戶都會不耐煩直接退出 , 這就是“首token延遲” 。 為了盡可能滿足用戶“即時反饋”的嚴苛要求 , 就迫使模型廠商絞盡腦汁 。 不能忽略的是 , 算力基礎設施的優化 , 就像是把路鋪平、修上護欄 , 提升系統的處理能力和并發效率 , 從而讓在線服務像上高速一樣順暢運行 , 大大降低延遲率 。

PD分離加速技術成為云廠商們競相展示的“王牌” , 而百度智能云的PD分離式推理基礎設施 , 憑借全局優化能力脫穎而出 。
物理網絡層面 , 百度智能云打造了HPN(High-Performance Network)高性能網絡集群 , 擁有自適應路由算法 , 像智能導航一樣 , 避免了大規模數據傳輸時(如Alltoall)的流量集中問題 。 全新的拓撲結構 , 如同重新規劃的城市路網 , 降低通信瓶頸 , 使帶寬有效性達到90%以上 , 讓交換機轉發延遲大大降低 , 集群傳輸又快又穩 。
流量管理層面 , 百度智能云自研的高性能KV Cache傳輸庫 , 為高優先級隊列預留帶寬 , 相當于“特殊車輛優先通行通道”;分層傳輸設計支持多層KV Cache復用 , 相當于潮汐車道 , 根據數據流量靈活調整傳輸通道 , 提升通行效率 , 并且訓推任務互不干擾 , 貨車轎車“各走各道” , 實現了DCN彈性RDMA滿帶寬傳輸 , 讓數據高效流通 。

通信組件層面 , 百度智能通過Alltoall算子優化和動態冗余專家編排 , 優化計算流與通信流 , 確保集群中所有GPU通信時間一致 , 顯著提升吞吐量和性能 。
以往企業使用大模型時 , 常因算力瓶頸、數據傳輸慢等問題受限 , 如同灌溉管道不暢影響了養分輸送 。 而百度智能云將網絡基礎設施、通信組件與上層業務深度融合 , 精心修建了一套高效的“算力管網” , 可以讓數據、算力在不同業務場景間快速流動 , 能夠助力各行各業快速應用大模型 , 解決企業智能化轉型的當務之急 。
第三重改造:多元化 , 一云多芯筑起算力可靠圍墻 。
限卡又限云 , 已經是美國遏制中國AI發展的明牌 。 完全依賴英偉達風險太大了 , 國際形勢變化頻繁 , 供應鏈隨時可能被卡脖子 , 企業構建算力集群 , 不能押注在單一芯片 , 會考慮一云多芯 。 但采購國產芯片分散風險 , 異構芯片納管與并行計算效率低 , 不同類型芯片之間協同工作困難重重 , 算力資源浪費嚴重 。
在國內算卡供應緊張的當下 , 讓多樣化芯片能夠協同訓練 , 意義不用多說 。 “一云多芯混訓”的能力 , 也讓百度智能云成為多數企業GPU云的選擇 , 比如長安汽車 。
走進長安汽車智算中心 , 就像是一座算力工廠 , 依靠百舸平臺與長安汽車自研的 “星環平臺” , 將算力資源發揮到極致 。 過去 , 服務器像低效運轉的老舊生產線 , 大量算力被閑置浪費 。 如今 , 百舸升級的智能調度系統 , 集群平均算力使用率飆升至90% , 綜合資源利用率提升50% 。

再比如某個頭部城商行 。 對銀行來說 , 業務可持續性至關重要 , 如果用戶訪問不了系統、辦不了業務是重大事故 。 既要自主可控的異構算力集群 , 又要穩定可靠的服務保障 , 對城商行的基礎設施提出了巨大挑戰 。 該城商行與百度智能云合作 , 通過異構平臺在算力感知的情況下 , 進行統一調度 , 讓不同芯片不再“打群架” , 可以被混合管理、混合使用 , 從而兼顧了算力安全與業務穩定 。
再到百度自建的國產昆侖芯 P800 大型單一集群里一看 , 資源利用率更是高達 98% , 讓每一張GPU都物盡其用 。
原來 , 單一服務器最多容納8張計算卡 , 而昆侖芯超節點技術可以將64張昆侖芯P800集中于單機柜 , 并且通信效率堪比單一機型 。 跨集群層面 , 百度百舸打通集群內的網絡墻 , 實現異構芯片互聯互通 。 通過accelerator 抽象層 , 屏蔽底層芯片差異 , 通過統一接口實現異構芯片的“即插即用”;采用自適應并行工具 , 找到最優的切分策略 , 根據芯片性能自動分配任務 , 減少性能損失 。 最終實現了近乎無損的“萬卡級多芯混訓”能力 。

在萬卡規模上 , 百舸可將兩種芯片混合訓練 , 目前一共支持 18 種以上芯片類型 , 徹底解決了一云多芯混訓的復雜難題 。
如今 , 經過規?;?、精益化、多元化的三重技術改造 , GPU云已從零散低效的“算力作坊” , 升級為高效精益的“現代農場” 。 百度智能云也憑借在GPU云服務領域的卓越表現 , 成為頭部廠商中增速最快的云服務廠商 。 IDC最新發布的《中國智算專業服務市場報告》中 , 百度智能云憑借AI解決方案實施服務 , 成為行業第一 , 領跑市場 。
這說明 , 依靠技術創新 , GPU云廠商可以逃離內卷 , 為行業和客戶創造差異化價值 , 讓GPU云服務在企業級市場煥發出充沛的價值 。

堅持“技術精耕” , 百度智能云走了一條向技術要效益、向技術要價值的良性發展之路 。 不僅讓其在GPU云市場建立差異化競爭的壁壘 , 也為整個行業從粗放走向精益 , 從內卷走向高質量發展 , 提供了一個很好的參考樣本 。
那我們不禁要問 , 為什么百度智能云能擺脫內卷的漩渦?是什么讓百度智能云有所不同?
一方面 , 是百度的技術基因 , 經過多年在AI領域的發展 , 百度及百度智能云已經打造了一系列高度適配AI業務、具有獨特創新能力的“尖刀型”技術 , 有力地解決GPU云集群建設中的痛點與難點 。

另一方面 , 是百度智能云的發展路徑清晰 , 向技術要答案、不走內卷化之路的戰略選擇是明確的 , 這也決定了百度智能云必須在技術上下苦功、登天梯 。 面對需求側的企業客戶 , 以供給側的高質量GPU云服務 , 回應AI規模應用的復雜算力需求;面對云市場的競爭對手 , 以技術領導力帶動GPU云產業的高質量發展 , 避免裸金屬的紅海價格戰 , 以百舸為核心的能力與服務 , 開拓更大的價值空間 。
GPU云的未來 , 不是卷“誰更便宜” , 而是看“誰敢創新” 。 真正的技術領導者 , 將贏下這場AI算力革命的主導權 。

    推薦閱讀