華為昇騰萬卡集群揭秘:如何馴服AI算力「巨獸」?

華為昇騰萬卡集群揭秘:如何馴服AI算力「巨獸」?

文章圖片

華為昇騰萬卡集群揭秘:如何馴服AI算力「巨獸」?

文章圖片

華為昇騰萬卡集群揭秘:如何馴服AI算力「巨獸」?

文章圖片

華為昇騰萬卡集群揭秘:如何馴服AI算力「巨獸」?

文章圖片

華為昇騰萬卡集群揭秘:如何馴服AI算力「巨獸」?

文章圖片

華為昇騰萬卡集群揭秘:如何馴服AI算力「巨獸」?
機器之心發布
機器之心編輯部
你是否注意到 , 現在的 AI 越來越 \"聰明\" 了?能寫小說、做翻譯、甚至幫醫生看 CT 片 , 這些能力背后離不開一個默默工作的 \"超級大腦工廠\"——AI 算力集群 。
隨著人工智能從簡單規則判斷進化到能處理萬億參數的大模型 , 單臺計算機的算力就像小舢板面對汪洋大海 , 而算力集群則是把上萬臺甚至幾十萬臺計算機像搭積木一樣連接起來 , 形成一艘能承載巨量計算任務的 \"算力航空母艦\" 。
當我們把上萬臺計算機整合成一個有機整體時 , 需要解決一系列世界級難題:如何讓它們像精密鐘表一樣協同工作?如何在部分設備故障時依然保持高效運行?如何快速修復大規模訓練中的中斷問題?
接下來我們將逐一揭秘這些支撐 AI 算力集群的關鍵特性 , 看看華為團隊如何用工程智慧馴服這頭算力巨獸 。
技術報告地址:https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/Overview/%E6%98%87%E8%85%BE%E9%9B%86%E7%BE%A4%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD%E7%BB%BC%E8%BF%B0.pdf
超節點高可用
24 小時不停工的智能工廠
就像醫院的急診系統必須時刻在線 , AI 訓練和推理也不能輕易中斷 。 算力集群里每臺計算機都有 \"備用替身\" , 當某臺機器出現故障(比如突然斷電或硬件損壞) , 系統會立刻啟動備用機接管任務 , 就像接力賽中接力棒無縫傳遞 , 確保自動駕駛訓練、語音識別等任務持續運行 , 不會因為個別設備故障而全盤停止 。
針對 CloudMatrix 384 超節點 , 華為團隊提出面向整個超節點的故障容錯方案 , 分為 “系統層容錯”、“業務層容錯” , 以及后續 “運維層容錯” , 核心思想就是 將故障問題轉為亞健康問題 , 通過運維手段優雅消除:
(1) 系統層容錯:通過超時代答欺騙 OS + 網絡路由切換 , 防系統藍屏 , 同時避免整個超節點級故障 。
(2) 業務層容錯:租戶無感知下 , 通過重試容忍網絡閃斷 , 將系統故障轉為亞健康 ,
(3) 運維層容錯:主要構筑亞健康感知和優雅恢復技術 , 通過主動方式將消減亞健康事件影響 。

集群線性度:人多力量大的完美協作
理想情況下 , 100 臺計算機的算力應該是 1 臺的 100 倍 , 1000 臺就是 1000 倍 , 這就是 \"線性度\" 。 算力集群通過精密的任務分配算法 , 讓每臺計算機都像 orchestra(交響樂團)的樂手一樣各司其職 , 避免出現 \"三臺和尚沒水喝\" 的混亂 。 比如訓練一個需要萬億次計算的模型時 , 萬臺計算機能像整齊劃一地劃槳的龍舟隊 , 讓算力隨規模增長而幾乎同步提升 。
華為團隊提出拓撲感知的協同編排技術 TACO、網絡級網存算融合技術 NSF、拓撲感知的層次化集合通信技術 NB、無侵入通信跨層測量與診斷技術 AICT 等四項關鍵技術 , 實現盤古模型訓練線性度提升 。

實驗及理論分析結果顯示 , 訓練Pangu Ultra 135B 稠密模型時 , 4K 卡 Atlas 800T A2 集群相比 256 卡基線 , 線性度為 96% 。 訓練Pangu Ultra MoE 718B 稀疏模型時 , 8K 卡 Atlas 800T A2 集群相比 512 卡基線 , 線性度 95.05%;4K 卡 CloudMatrix 384 集群相比 256 卡基線 , 線性度 96.48% 。
萬卡集群訓練快速恢復
帶 \"存檔功能\" 的訓練師
當用上萬個計算單元(俗稱 \"萬卡\")訓練超大規模模型時 , 偶爾有幾臺機器 \"罷工\" 是難免的 。 這時系統會像游戲存檔一樣 , 自動記錄最近的訓練進度 。 一旦檢測到故障 , 能快速定位出問題的計算單元 , 跳過故障部分 , 從最新的存檔點繼續訓練 , 避免從頭再來的巨大浪費 。 比如訓練一個需要 30 天的模型 , 即使中間有設備故障 , 也能在幾分鐘內恢復進度 , 就像視頻播放可以隨時續播 。

為了使萬卡集群訓練可以達到分鐘級快恢 , 華為團隊提出了以下多個創新:
(1) 進程級重調度恢復:正常節點通過參數面網絡將臨終 CKPT 傳遞到備用節點上 , 完成參數狀態恢復后繼續訓練 , 能夠有效縮短訓練恢復時間到 3min 以內 。
(2) 進程級在線恢復:針對硬件 UCE 故障 , 通過業務面昇騰 CANN 軟件、框架軟件、MindCluster 軟件配合實現故障地址在線修復 , 進一步縮短訓練恢復時間到 30s 以內 。
(3) 算子級在線恢復:針對 CloudMatrix 384 產品 HCCS 網絡、ROCE 參數面網絡提供 HCCL 算子重試能力 , 容忍更長時間的網絡異常 , 實現網絡故障影響的通信算子秒級重執行 , 訓練任務不中斷 。

超大規模 MoE 模型推理分鐘級恢復
各路英豪來幫忙
隨著千億 MOE 模型架構演進 , 實例部署的組網架構從傳統的一機八卡演進為大 EP 組網架構 , 將多且小的專家部署在多個服務器節點上緩解顯存帶寬壓力 , 目前在大 EP 組網架構下主要面臨部署規模擴大導致的故障概率數量增大、故障爆炸半徑變大的可靠性問題 , 任意硬件故障都會導致整個 Decode 實例不可用 , 進而導致推理業務受損 , 甚至中斷 。
針對當前超大規模 MoE 模型帶來的大 EP 推理架構的可靠性難題 , 華為提出三級容錯方案 , 實例間切換、實例內重啟恢復、實例內無損恢復 , 從硬件驅動層、框架層、平臺層相互協作 , 構筑端到端可靠性體系 。 在不同的故障場景下 , 采用不同的容錯恢復手段 , 可以最小化用戶損失 。
(1) 實例內快速重啟恢復技術:根據實際環境測試驗證 , 該技術將實例恢復時間從 20min 降低 5min 。
(2) TOKEN 級重試:基于 DeepSeekV3 在 CloudMatrix 384 超節點場景下 , 驗證 30~60s 實現實例恢復 。
(3) 減卡彈性恢復技術:作為當前進行工作 , 解決硬件故障下業務中斷問題 , 通過專家遷移 , 實現故障時推理進程不退出 , 以減卡為容錯手段 , 動態調整推理實例規模 , 在用戶無感知情況下秒級恢復 。

故障管理與感知診斷
24 小時在線的設備醫生
算力集群里有一套實時監控系統 , 就像給每臺計算機安裝了 \"健康手環\" , 持續監測溫度、算力利用率、數據傳輸速度等指標 。 一旦發現某臺設備運行異常(比如散熱不良導致速度變慢) , 系統會立即發出警報 , 并像醫生一樣分析故障原因 —— 是硬件老化?網絡擁堵?還是軟件 bug?快速定位問題并啟動修復機制 , 防止小故障演變成大停機 。
針對面向算力集群的硬件故障管理 , 華為團隊提供了一套完整的解決方案:基于 CloudMatrix 384 超節點的設備物理形態和組網方案的昇騰 AI 硬件災備高可靠架構設計、涵蓋基礎檢錯糾錯能力、故障隔離能力、故障容錯能力以及深度巡檢與故障預測能力的昇騰 RAS 統一故障管理容錯框架、進一步提升光鏈路的可靠性的網絡自診斷可靠性管理、以及綠色低碳、穩定可靠和安全可信的云數據中心管理體系 。

針對面向算力集群的故障感知能力 , 華為團隊構建了大規模集群在線故障感知(全??捎^測)和故障診斷(全棧故障模式庫、跨域故障診斷、計算節點故障診斷、網絡故障診斷)技術:
【華為昇騰萬卡集群揭秘:如何馴服AI算力「巨獸」?】(1) 全??捎^測能力:構建了大規模集群的故障感知能力 , 主要由集群運行視圖、告警視圖、網絡鏈路監控、告警接入和配置、網絡流可觀測能力組成
(2) 故障診斷能力:包括全棧故障模式庫、跨域故障診斷、計算節點故障診斷、網絡故障診斷;

建模仿真
算力底座的 “數字化風洞”
在正式開展復雜 AI 模型的訓推之前 , 算力集群可以先在虛擬環境的 “數字化風洞” 中 \"彩排\" 。 比如研發一個新藥篩選模型時 , 先通過模擬不同的算法參數、數據輸入和計算資源分配方案 , 預測模型在真實場景中的表現 , 就像電影導演用動畫預演復雜鏡頭 。 這種 \"先模擬后實戰\" 的方式 , 能提前發現計算系統的瓶頸點和邏輯漏洞 , 并提出相應優化手段 , 節省大量真實訓推的時間和資源 。
華為團隊創新性提出系統化、可擴展的馬爾科夫建模仿真平臺 , 圍繞對訓練、推理、高可用三大核心領域實現多維度系統性建模分析與性能預測調優 , 實現集群資源高效配置與動態優化 , 達成算力極致利用與系統長期穩定可靠運行 。
(1) Sim2Train 訓練建模仿真:馬爾科夫訓練集群建模仿真平臺 , AdaptPack 編排優化長序列 PP 空泡 , 吞吐提升 4.5%-8.24% 。 通信與計算協同場景 , 引入 AdaptS/R 技術 , 通信暴露時間降 89.84% , 單步總時長縮短 3.25%;MoE 通過 AdaptExpert 提升端到端性能 7.5% 。

(2) Sim2Infer 推理建模仿真:面向昇騰復雜推理系統的馬爾科夫建模仿真平臺 , 實現了從高層算子描述到底層硬件指令的自動化映射與仿真 , 平均誤差低至 6.6% 。

(3) Sim2Availability 高可用建模仿真:馬爾科夫高可用建模仿真框架 , 通過離散時間步長仿真 , 建模單步時長內的故障性能劣化影響與恢復耗時 , 模擬復雜系統訓練任務中的故障場景及運維響應 , 實現對訓練過程性能表現與故障恢復狀態的全周期監控仿真 。

框架遷移
給模型跑車換更酷炫輪胎
自從 2020 年 3 月全面開源以來 , 華為推出的全場景 AI 框架昇思 MindSpore 一路高歌猛進 , 開發者生態迅速成長 。 除了為基于昇騰 + 昇思的自主創新外 , 昇思 MindSpore 也提供了擁抱主流生態的兼容方案 , 適應大模型時代的挑戰和需求 。
(1) 訓練階段 , MindSpore 構建了 MSAdapter 生態適配工具 , 覆蓋 90% 以上 PyTorch 接口 , 實現第三方框架的無縫遷移 , 并針對動態圖執行效率的問題 , 通過多級流水線技術與即時編譯(JIT)優化顯著提升執行效率 。
(2) 推理階段 , MindSpore 基于主流生態的 HuggingFace 權重配置 , 無需修改即可實現一鍵部署 , 通過 vllm-MindSpore 插件對接 vLLM 框架 , 支持大模型推理服務化能力 。 實現盤古 72B 模型快速部署 , 實現推理性能提升 。
總結與展望
綜上所述 , 華為團隊針對昇騰算力集群基礎設施 , 提出了針對超節點高可用、集群線性度、萬卡集群訓練快速恢復、萬億 MoE 模型推理容錯、集群故障感知及感知診斷、集群仿真建模、框架遷移等方面的全維度的創新方案 。
隨著新型應用快速變化 , 硬件系統持續創新 , 系統架構不斷演進 , 工程能力走向智能化 , 未來算力基礎設施的演進將走上算法 - 算力 - 工程協同進化的道路 , 有可能形成形成 “應用需求→硬件創新→工程反哺” 的閉環 , 算法層驅動算力專用化(如復合 AI 需異構加速) , 算力層通過架構革新(如光電混合)釋放性能潛力 , 工程層以智能化手段(如 AI 運維)彌合復雜度鴻溝 , 最終實現高效、彈性、自愈的下一代算力基礎設施 。




    推薦閱讀