
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
大模型熱潮下 , 代入企業IT/AI工程師的視角卻會發現 , AI落地處處都是坑:
AI在企業內部應用的場景多了之后 , 一到業務峰值 , 用戶并發涌上來 , 要是調度系統不給力、加速引擎沒提效、KVCache優化不到位 , 服務一旦卡殼 , 不僅用戶體驗崩了 , 還會帶來業務損失;
智能體當道 , “數字員工”大量上崗 , 相互協作帶來了大規模推理服務需求 , 但問題也隨之而來 , 要么延遲超了 , 要么吞吐上不去 , 技術人員不得不熬夜做優化 。
這些焦頭爛額的場景 , 正是當前企業AI落地過程中的真實寫照 。 AI Infra的能力支撐 , 變得愈發重要 。
8月的2025百度云智大會上 , 產業對AI Infra的訴求有了明確的回應:百度智能云正式發布新一代AI基礎設施 , 以百度百舸5.0為核心打造超節點云實例等關鍵能力 , 構建“云智一體、智能優先”的技術底座 。
正如百度集團執行副總裁、百度智能云事業群總裁沈抖所言:企業對基礎設施的需求已經從“降本增效”轉向“直接創造價值” , AI云不再是企業的“成本中心” , 而會成為新型的利潤中心 。
斷言背后 , 百度智能云在AI云市場競爭中高歌猛進 , 65%央企選擇、連續六年公有云市場第一……無論是超大規模算力調度 , 還是復雜產業場景落地 , 百度智能云都已經形成了技術突破與產業實踐的雙重護城河 , 成為行業公認的頭部玩家 。
但整個云市場的競爭仍在日趨白熱化 , 云廠商紛紛將AI軟硬件作為拉動增長的核心引擎 , 導致技術路徑五花八門 , 解決方案層出不窮 , 讓不少企業用戶患上了選擇困難癥 。
到底該如何選 , 才能真正吃透AI Infra的技術紅利呢?答案恐怕還要回到產業的真實需求中去尋找 。
風起云涌的AI浪潮中 , 很多企業都想盡快用上AI提升競爭力 , 但現實里卻處處受限:芯片性能短期內難有大幅突破 , 自己建AI基礎設施要花大價錢 , 而且企業自身大多缺乏搭建軟硬件搭建的能力 。
這時候 , AI云就成了最優解 。 企業不用改造自己現有的系統 , 通過云端即可高效調用AI所需的算力、網絡等核心能力 。
不過 , 面對五花八門的AI云 , 企業到底該看什么?業內共識是 , 企業落地大模型時 , 最容易被三個地方卡住脖子:算力瓶頸、互聯瓶頸、穩定性與可靠性挑戰 。
算力是企業應用AI的第一道關卡 。
大模型訓練的算力消耗就很驚人了 , 以OpenAI為例 , 今年底上線的GPU數量就超過100萬塊 。 而智能體的爆發 , 也使得token使用量激增 , 帶動推理算力需求上行 。
比如創下MPV紀錄的羅永浩數字人直播間 , 前臺講解的兩個數字人主播背后 , 助播智能體負責烘托氣氛 , 劇本智能體撰寫雙人對話腳本 , 不同智能體按職責動態調整 。 每個智能體都要靠專門的AI模型驅動 , 這些模型同時跑起來 , 瞬間爆發的高并發算力需求 , 傳統集群的固定資源分配模式完全跟不上節奏 。
所以 , 現在AI Infra的首要任務就是打破算力瓶頸 , 讓大模型“裝得下、跑得起” 。
攻克算力瓶頸 , 需要釋放硬件性能 , 這時另一個卡脖子的問題又冒了出來 , 那就是:互聯瓶頸 。
現在企業建AI集群 , 主要走兩條路:Scale Out(橫向擴展)與Scale Up(縱向擴展) 。 其中 , Scale Up超節點架構憑借單節點高密度算力集成的特性 , 支撐DeepSeek這類單體算力消耗不大的模型 , 成為企業應用AI的熱門選擇 。 但在實際落地中 , 用Scale Up替換Scale Out , 解決EP并行下的AlltoAll通信問題 , 需要構建適配數十塊芯片在Scale Up域內實現高速全互聯的網絡架構 , 研發與之匹配的高效通信協議 , 并且對上層模型服務進行對應的適配優化 , 通過這樣的“技術組合拳” , 才能充分發揮Scale Up網絡 , 解決互聯瓶頸 , 釋放高密度算力集群的效能 , 支撐DeepSeek等模型在企業級AI場景中的高效部署與運行 。
無論Scale Out還是與Scale Up , 都繞不開一個規律:Scaling law(擴展法則) , 這就帶來第三個難題:系統的穩定性與可靠性挑戰與日俱增 。
模型性能隨參數規模增長的需求仍在主導著AI Infra的演進 , 更直接影響著MoE(混合專家模型)等前沿架構的落地訴求 。 像DeepSeek那樣的MoE模型(混合專家模型) , 得調動幾千上萬個專家節點一起工作 , 再加上現在越來越多人用強化學習、搞訓推一體 , 這些動態彈性高并發的訴求 , 都對系統穩定性與可靠性帶來沖擊 。
穩定性與可靠性問題無法解決 , AI服務就容易出現卡頓、延遲 。 這種情況下 , 哪怕場景需求明確、應用價值很高 , AI也很難真正落地 。 當下階段 , 單純依賴硬件層面的優化已經不夠了 , 必須讓軟件(比如推理系統)和硬件深度配合 , 才能增強集群韌性 , 保證系統穩定運行 。 更重要的是 , 深入產業場景還會發現 , 上述瓶頸并非是孤立存在的 。
AI落地 , 難關重重 , 企業需要在諸多彼此牽制的因素中尋找解法 , 自然頭痛不已 。
而對于云廠商來說 , 企業的痛點既是挑戰 , 也是機遇 。 要贏得這個龐大且迅速增長的市場 , 必須幫企業真問題 , 僅靠單一技術顯然無法破局 , 唯有對AI Infra來一場徹底的系統性創新 , 才能在日趨激烈的競爭中撕開突破口 。
任何脫離企業實際應用需求的技術探索 , 都難以形成穩定可信賴的服務價值 。 企業當下所需要的AI Infra , 早已不再是簡單的算力供給 , 還要解決網絡、穩定、模型適配等一系列復雜難題 。 唯有如此 , 才能真正用好AI 。
沈抖就在云智大會上直言:這幾年我們一直在思考 , AI云怎樣才能真正做到智能優先?答案是算力、模型、數據和工程能力 。 基于這一判斷 , 百度智能云推出了全新升級的百度百舸5.0 。
當然了 , 云廠商說得再好 , 不如企業用戶現身說法 。 我們還是從一個個行業和企業的切實變化 , 來看看新一代基礎設施如何精準回應產業落地AI的核心痛點 。
第一個需求 , 就是讓AI跑起來 。
最直觀的就是具身智能機器人 。 無論是WAIC大會現場 , 還是世界人形機器人運動會的賽場上 , 跑動的機器人都貢獻了不少出圈的名場面 。 讓機器人跑起來得辦好兩件事:一是智商高 , 二就是會學習 。
解決機器人的智商問題 , 機器人的“大腦”(決策大模型)與“小腦”(運動控制小模型)得經過高效訓練 , 這就需要龐大算力 。 百度智能云的昆侖芯超節點 , 將64張全棧自研昆侖芯集成于單節點 , 實現單卡性能提升95%、單實例推理能力提升8倍 , 讓算力無憂 。
云智大會上 , 百度百舸還正式上線了昆侖芯超節點公有云實例 , 現在具身智能企業只需調用云實例 , 幾分鐘就能跑萬億級開源模型 。 讓機器人的大腦(世界模型)和眼睛(視覺語言動作模型VLA)訓得快 , 大幅縮短了機器人的落地周期 。
二是會學習 , 機器人要到真實世界中接受地面摩擦力變化、障礙物突發等不確定性挑戰 , 這要求機器人能適時調整動作策略 , 應對復雜條件 , 這就需要強化學習的試錯-反?。 嘔?, 來賦予機器人自主學習的靈魂 , 不僅對算力要求高 , 還需要強化學習框架 , 來提高具身智能企業在多模態數據處理等方面的工程能力 。
百度智能云通過深度工程創新 , 打造了適配具身智能的百舸強化學習框架 。 在訓練、推理、存儲等環節 , 將吞吐推至極限 , 更通過系統性協同實現全局效率最優 , 把強化學習效率拉到了行業新高度 。
北京人形機器人創新中心等“國家隊”選擇與百度智能云合作 , 正是因為在百舸的支撐下 , 機器人的身心都有了堅實的承載底座 , 加速具身智能從實驗室走向家庭、工廠 。
下一個需求 , 就是跑得快 。
對金融、汽車、AIGC影視等行業來說 , 模型“跑得動”只是基礎 , “跑得快”才直接決定商業價值 。
如今許多金融機構都接入了DeepSeek等開源大模型 , 應用在智能客服、智能投顧、文書寫作等領域 , 但MoE模型的專家并行需要高頻通信 , 推理時流量波動、超長文本處理需要節點協同 , 若網絡帶寬不足、延遲過高 , 會直接導致“算力等數據”的延遲 , 十分影響業務人員和用戶的對話體驗 。
除此之外 , 超大規模集群的算力堆了不少 , 但訓練效率就是上不去的問題經常出現 。 正如前面提到的新能源車企的智駕模型訓練問題 , 要解決網絡延遲、終端導致的訓練故障 , 提升計算效率與資源利用率至關重要 。 讓AI跑得快 , 就得打通算力和模型的通信卡點 。 為此 , 百舸5.0針對性升級VPC、RDMA、XPU-Link三大網絡 , 構建了低延遲、高可靠的通信底座 , 讓算力跑上了高速路 。
百度百舸200Gbps的高速VPC網絡 , 能夠支持巨型幀傳輸 , 可以顯著提升推理階段KV Cache傳輸、訓練階段Checkpoint讀寫這些核心環節的計算效率 。 單集群十萬卡RDMA互聯網絡 , 可以把端到端的延遲壓縮到4微秒 。 面對MoE模型海量、高頻、延遲敏感的All-to-All通信的瓶頸 , 百度自研的XPU-Link協議把卡間帶寬提升8倍 , 把延遲做到國內最低 , 讓專家并行的通信更快 , 最大程度地釋放芯片的計算性能 。
無論是垂直行業訓練專有大模型 , 還是各行各業上線實時推理的DeepSeek , 只有跑在高速通信的網絡上 , 都能更快更高效 。
第三個也是企業落地AI的底線考驗:跑得穩 。
2025年產業AI的一個主要變化 , 就是Deepseek帶火了MoE架構 , 計算任務也從預訓練轉向了后訓練、推理環節 , 而推理的工作負載會隨著流量規模、上下文長度的變化而變化 。 各行業使用AI的熱情高漲 , 新場景不斷涌現 , 進一步增加了推理的動態和復雜性 。
如沈抖所說 , 這時候單靠堆卡是不夠的 , 需要做系統性的優化 。 百度智能云最新推出了百舸5.0推理系統 , 就是為此而來 , 通過軟硬協同優化 , 為AI業務場景提供高效支撐 。
今年上半年 , 百度百舸上線了領先業界的PD分離能力 , 以大規模推理的效率 , 而如今面對大規模、復雜MoE的場景 , 百度百舸5.0將分離做得更徹底 , 還推出了VIT分離(視覺和語言) , 以及Attention-MLP分離 , 通過深度解耦這些計算模式不同的模塊 , 讓整個系統更加高效 , 實現了數十倍的吞吐提升 , 從而更好地提升MoE 時代的推理性能 。
針對多智能體協作時KV Cache增多的問題 , 百舸5.0 KV Cache系統還可以實時感知集群全局狀態 , 從HBM靈活遷移至內存、SSD乃至遠程分布式文件系統中 , 實現緩存智能管理 , 讓存儲資源的彈性適配 , 從而提升整體系統的調度效率與資源利用率 。
在律師處理法律合同、政務部門處理超長文檔等場景中 , 百舸5.0的自適應能力 , 能夠根據輸入文本長度動態調整張量、序列和專家并行策略 , 讓MoE模型推理效率顯著提升 。 128K超長文本3秒內出首字 , 能減少等待時間 , 顯著提升用戶的使用感受 。 在相同成本下 , 能處理更多請求 , 模型能完成的任務量更多了 。
還有像3D建模平臺VAST這樣的企業 , 如果平臺的百萬設計師同時在線調用模型 , 那么百舸5.0的智能調度 , 通過數據并行、專家并行雙重負載均衡 , 優化推理效率 , 即使是大規模高并發的實時訪問場景 , 也能為設計師們源源不斷的創作靈感保駕護航 。
可以發現 , 百舸5.0的四大升級并非孤立技術 , 而是圍繞“企業如何用好AI”來構建系統性解決方案 。
這也印證了產業實踐中 , 算力瓶頸、網絡瓶頸與穩定性與可靠性挑戰三大關卡彼此制約的復雜難題 , 必須靠組合拳才能擊穿 。 舉個例子 , 業內也有云廠商推出了吸引眼球的技術 , 如高密度超節點 , 但并沒有搭好云實例 , 企業看得到但用不上 , 最后還是卡在上不了手的死胡同 。
讓企業真正靠AI Infra把AI用起來 , 百舸5.0的系統性方案 , 正是百度智能云轟向AI落地關卡的一組組合拳 。
一位油氣領域專家曾向我們感慨:智能化一旦啟動 , 就不會停止 。 這是行業一線從業者的真實體感 , 而綜合數據也印證了這一點 。
IDC發布的 《2025年第一季度全球服務器市場跟蹤報告》顯示 , 2025 年第一季度服務器銷量大幅上漲 , 其中GPU需求成為推動增長的核心因素 。 隨著AI大模型的廣泛應用 , 企業對GPU加速服務器與云端算力的依賴顯著加強 , 原本依賴本地數據中心的組織 , 正在將AI相關工作負載逐步遷移至云端;而已經部署云架構的企業 , 也在持續將AI能力嵌入業務流程與數據系統 , 帶動對GPU與云基礎設施的長期需求 。
對各行各業來說 , 智能化是一場漫長的長跑 , 那么 ,AI云市場 , 誰能陪企業跑得更遠、更久?
一份報告揭開了行業秘密:8月18日IDC發布的IDC報告顯示 , 2024年中國AI公有云服務市場規模達195.9億元 , 百度智能云以24.6%的市場份額穩居第一 , 連續六年、累計十次蟬聯中國AI公有云市場冠軍 。
百度智能云能成為65%央企的AI創新合作伙伴 , 背后的秘密或許就藏在累計十次、六連冠的長期主義中 。 毫無疑問 , 百度智能云是一個深耕AI云賽道的耐力型選手 , 技術能力和產業耐力都得到了時間的檢驗 。 這意味著 , 在政企落地AI的智能化長跑中 , 選擇百度智能云一同陪跑 , 會得到以下助力:
一是多年沉淀的產業級技術護城河 。 從云智大會披露的進展來看 , 昆侖芯超節點云實例、百舸訓推升級、強化學習框架等產品、新技術 , 不只是為了炫技 , 更緊貼產業需求 。 這種技術競爭力 , 來自百度智能云多年來押注產業智能化的積累 。 早在2015年百度正式對外提供云服務時 , 便強調云的智能屬性 。 2019年 , 百度智能云將“云+AI”確立為核心戰略 , 提出“云智一體、深入產業” , 進一步明確了AI云的發展方向 。
能深度理解AI業務 , 并具備持續迭代的技術韌性 , 這在公有云市場當中是一種十分稀缺的能力 , 也為產業客戶帶來了長期信心 。
特別是對于大型政企來說 , 業務關系國計民生 , 在布局AI時 , 每一次選擇都關乎產業升級的方向與節奏 。 中國郵政儲蓄銀行依托百舸完成GPU/CPU算力重組 , 提升混合芯片集群利用率;長安汽車也牽手百度智能云建設AI基礎設施 , 進一步加速智能駕駛模型迭代 。 這些企業本質是選擇一個戰略伙伴 , 作為智能化路上的定心丸和壓艙石 , 支撐自身轉型的全周期需求 。
二是300+行業場景驗證的AI落地方法論 。 產業AI的本質是“產業為先” , 技術落地必須貼合業務場景的節奏 , 無法一蹴而就 。 百度智能云在服務政企的過程中 , 積累了覆蓋金融(招行)、能源(中石化)、汽車(長安汽車)、AIGC(生數科技)、具身智能(人形機器人創新中心)的300+場景經驗 , 既能為行業龍頭提供超大規模算力調度 , 也能為創業公司提供精準場景突破 , 與各個產品同頻共進 , 精準賦能 , 才能讓技術真正成為智能升級的助推器 。
智能化征程中 , 每一個人與企業都是跑者 。 而AI Infra作為底層根基 , 牽一發而動全身 , 一旦在企業中扎下根來 , 就很難被輕易替代 。 正因如此 , 當下的AI云市場不是溫和競逐 , 而是搶算力、拼方案的白熱化廝殺 , 本質是跟時間賽跑 , 搶奪企業AI陪跑者的身位 。
誰能搶先接住企業落地AI的真需求 , 相當于拿下了未來的市場 。 百度智能云累計十次、連續六年蟬聯中國AI公有云冠軍 , 就是佐證 。 把技術突破轉化成貼合用戶的智能化陪跑能力 , 不僅搶到了與65%央企共同探索AI創新的入場券 , 更是為自己筑起了別人難以快速趕上的領先優勢 。
目前AI技術仍在快速迭代 , Infra層面仍存挑戰 , 這也提醒我們 , 唯有以技術破局、為產業筑牢底座 , 云廠商才能贏下這場AI決戰 。
【AI云玩家洗牌時刻,百度智能云憑什么六連冠?】
推薦閱讀
- 云鯨二季度全球市場表現強勁,躋身2025年Q2全球掃地機器人市占TOP5
- 從AI開發提效到游戲全球出海,騰訊云升級全新游戲行業全生命周期方案
- 華為ADS云端算力公布:45EFLOPS全國第一!
- 海外客戶數同比翻倍!騰訊云已全面擁抱國際化
- 降低大模型幻覺、讓企業AI輸出更靠譜,亞馬遜云科技掏出10年家底
- 日本手機市場洗牌:小米第五,三星第三,第一名占比49%
- 云姨夜話丨AI時代,進步不是“跑得快”
- 日本Q2季度手機市場洗牌:蘋果份額占了一半,小米努力拼進第五
- 百元耳夾式耳機哪款好?虹覓Air2小云夾測評推薦
- 機智談|樂聚冷曉琨:人形機器人可能受質疑,年底行業或將洗牌
