
文章圖片

文章圖片

文章圖片
機器之心報道
機器之心編輯部
超節點架構重新定義大規模有效算力新范式 。
AI 算力正在迎來全新形態 , 革新的原點來自國內 。
在算力需求呈指數級增長的今天 , AI 基礎設施的規模競賽似乎陷入了一個怪圈:隨著集群規模擴大 , 傳統通過「服務器堆疊和以太網聯接」的模式 , 會因服務器間帶寬不足、時延大等問題 , 導致有效算力利用率反而越低 , 訓練中斷也愈發頻繁 。
在昨天的華為全聯接大會 2025 上 , 華為給出了自己的解法:基于自研的靈衢(UnifiedBus)互聯協議 , 創新了超節點架構 。
這并非又一個單純的硬件升級 , 而是華為在計算系統架構層的一次深度重構 。
要實現超節點架構 , 最難、也最關鍵的是突破互聯瓶頸 。
在傳統服務器架構中 , 我們可以將其理解為一個由無數獨立「計算島嶼」(服務器)組成的群島 , 島嶼之間依靠傳統的網絡「航線」(如以太網 / IB 網絡)進行數據交換 。
在集群規模較小時 , 這種模式尚能應付;但當成千上萬個計算單元需要為同一個龐大的訓練任務進行高頻、海量的數據同步時 , 這些「航線」就會迅速擁堵 。
其結果是 , 大量的計算單元不是在計算 , 而是在「等待」數據 。 節點間的通信延遲和帶寬限制成為了整個集群的木桶短板 , 導致「1+12」的規模效應遞減 , 算力利用率隨規模擴大而下降 。 在萬億模型訓練中 , 約有 40% 的時間 , 計算在空等通信 。
更致命的是 , 任何一個節點的故障都可能引發連鎖反應 , 導致動輒耗時數周的訓練任務中斷 , 造成巨大的資源浪費 。 可以說 , 互聯架構的能力 , 直接決定了 AI 集群規模的天花板 。
華為希望以超節點創新的形式 , 改變傳統集群「堆疊」模式 , 解決當前大規模 AI 計算最核心的痛點:通信墻 。
互聯技術的研發難度極大 , 正如業界關注的 NVL144 的上市時間已推遲到明年下半年 , 而華為的獨特之處在于 , 基于靈衢互聯 , 已經成功實現了超大規模的超節點部署 , 驗證了該技術路線的成熟與領先 。
從「堆疊」到「融合」 , 深度互聯推動 AI Scaling Up
「超節點」架構的核心思想 , 在于「融合」 。 超節點在物理上由多臺機器組成 , 但邏輯和使用上可以看做是單一設備 。 它通過大帶寬、低時延的互聯網絡 , 將計算單元、存儲單元等組件平等互聯 , 并統一通信協議與內存編址 , 實現全局資源池化 , 從根本上解決了傳統集群的通信墻問題 。
基于這樣的架構 , 能夠將通信時延降低到百納秒級 , 大幅提升集群利用率 , 降低通信成本 。 其最終目標是讓有效算力隨集群規模實現真正的線性拓展 , 并大幅提升系統的長效可靠性 。
華為董事、ICT BG CEO 楊超斌在昨天的華為全聯接大會上表示:「基于靈衢互聯協議 , 華為創新了超節點架構 , 可將多臺物理機器深度互聯 , 實現邏輯層面像一臺機器一樣學習、思考與推理 , 重新定義了高效、穩定、可擴展的大規模有效算力新范式 。 」
華為董事、ICT BG CEO 楊超斌在華為全聯接大會上 。
覆蓋全場景的創新產品組合
隨著 AI 基礎建設的快速演進 , 超節點或許會很快成為 AI 基礎設施的新常態 。
而超節點不僅僅應用于 AI 數據中心 , 更需要普惠千行萬業的 AI 計算需求 。 為此 , 基于超節點架構 , 華為打造出滿足大型數據中心、企業級數據中心到小型工作站等全場景算力需求的創新產品 。
旗艦標桿:Atlas 950 SuperPoD本次大會 , 華為發布 Atlas 950 SuperPoD 和 Atlas 960 SuperPoD 超節點 , 分別支持 8192 及 15488 張昇騰卡 , 在卡規模、總算力、內存容量、互聯帶寬等關鍵指標上全面領先 。
這是給頂級玩家(如云服務商、國家級智算中心)準備的「旗艦武器」 , 其采用的全液冷和零線纜電互聯的正交架構設計 , 結合液冷接頭浮動盲插等技術 , 不僅解決了超高密度下的散熱和互聯難題 , 更通過系統性創新解決了跨柜長距離、高可靠部署這一業界難題 , 更極大地提升了系統的長期運行可靠性和機房部署適應性 。
其 FP8 算力達到 8E FLOPS , 總互聯帶寬高達 16PB/s , 超過今天全球互聯網峰值帶寬的 10 倍有余 。
其創新的「UB-Mesh」遞歸直連拓撲 , 最大可支持 8192 卡無收斂全互聯 , 這意味著在理論上 , 集群內的任意兩個 NPU 都能實現最高效的通信 , 為萬億參數級別模型的訓練掃清了障礙 。
基于超節點 , 華為同時發布了全球最強超節點集群 Atlas 950 SuperCluster 和 Atlas 960 SuperCluster , 算力規模分別為超過 50 萬卡和百萬卡 , 成為了全球最強算力集群之一 。
華為副董事長、輪值董事長徐直軍在大會演講中強調 , 基于中國可獲得的芯片制造工藝 , 華為努力打造「超節點+集群」算力解決方案 , 可以滿足持續增長的算力需求 。
企業普惠:Atlas 850這或許是本次發布中最具市場穿透力的產品 。 作為業界首個企業級風冷 AI 超節點服務器 , 它首次將超節點架構帶入企業級風冷數據中心 , 極大地降低了企業部署超節點架構的門檻 。
這意味著 , 大多數企業無需對現有數據中心進行復雜的液冷改造 , 在大多數單柜供電能力為 20 千瓦以內的標準風冷機房內 , 也能構建起最大 1024 卡的超節點集群 , 這對于推動大模型在更廣泛行業的「后訓練」和多場景推理應用意義重大 。
楊超斌發布 Atlas 850 企業級風冷服務器 。
基礎計算單元:Atlas 350 標卡基于最新的昇騰 950PR 芯片 , 這款標卡不僅自身性能大幅提升(如推薦推理場景性能提升 2.5 倍) , 更關鍵的是 , 它通過靈衢端口實現了多卡互聯與資源池化 。
這意味著 , 即便是單個服務器內的多張標卡 , 也能「攢」出一個小型的超節點 , 讓更大參數的模型和更低時延的應用得以在更小的單位上運行 。 同時 , 靈活擴展、可拆可合的特性 , 也讓用戶能夠根據自己的需求 , 靈活組裝 。
通用計算場景:TaiShan 950 SuperPoD這是華為超節點戰略的延伸 , 也是一個值得關注的信號 , 華為將這一架構首次應用于通用計算領域 , 推出了業界首款通算超節點 。
其百納秒級超低時延和內存池化能力 , 將直接利好數據庫、虛擬化和大數據等對延遲極其敏感的場景 , 為傳統 IT 架構的性能提升開辟了新的想象空間 。
值得一提的是 , 基于 TaiShan 950 超節點打造的 GaussDB 多寫架構 , 無需改造即可平滑替代大型機、小型機上的傳統數據庫 , 為傳統 IT 架構的性能提升開辟了新的想象空間 。
以「開源開放」構建護城河
在發布一系列「肌肉感」十足的硬件產品之余 , 華為反復強調的是「硬件開放、軟件開源」的生態戰略 。
在 AI 時代 , 單一廠商的技術再強 , 也無法包攬所有場景的應用創新 。 真正的壁壘 , 在于生態的繁榮度 。
硬件開放:華為將 NPU 模組、刀片、主板等基礎硬件向伙伴開放 , 鼓勵產業界進行二次開發 , 共同豐富基于靈衢協議的產品形態 , 為不同場景提供適配的算力底座 。
軟件開源:將昇騰 CANN 和操作系統靈衢組件全面開源 , 代碼將陸續合入 openEuler 等開源社區 , 并確保對 PyTorch、vLLM 等主流框架的優先支持 。 通過強化開源運作 , 華為致力于使能廣大開發者和合作伙伴 , 讓超節點走向普惠和協同創新 , 共建繁榮的 AI 生態 。
昨天的大會上 , 華為除了發布全球最強超節點 , 公布全新昇騰 950 芯片架構之外 , 還介紹了自研算力體系的落地情況:基于靈衢的 Atlas 900 A3 超節點當前已經累計部署了 300 多套 , 服務 20 余個客戶 , 行業覆蓋互聯網、金融、運營商、電力、制造等 。 新一代超節點已在客戶真實場景中兌現了價值 。
【華為超節點:用「一臺機器」的邏輯,驅動AI萬卡集群】算力的未來 , 在于打破邊界 。 「超節點」架構的核心使命 , 就是構建一個統一、可擴展的算力基石 , 旨在將一致的、高性能的計算體驗 , 無縫貫穿到每一個數據中心、企業和工作站 。
推薦閱讀
- 華為新品官宣:9月26日,正式首銷
- 華為384昇騰AI云服務已上線 未來超節點規格將升到8192卡
- 華為云:做厚算力“黑土地”,成就行業AI先鋒
- 華為旗艦突然“變香了”!鴻蒙OS+衛星通信,512GB大降1500元
- 國內手機排行榜更新:華為第四,OPPO第二,第一名繼續遙遙領先
- 這種材料,有望在先進節點取代銅和鎢
- 華為Mate80系列再次被確認:雙層OLED+新一代可控自研芯片,風扇待定!
- 一加15跑分與外觀雙曝光:超高跑分+超窄邊框,或成行業新標桿!
- 聚焦2025年Q3前八周:手機銷量有漲有跌,華為OPPO憑啥“獨善其身”?
- 華為逆勢增長2%排名第二,小米下滑2%排第四,榮耀跌幅最大排第五
