華為超節點：用「一臺機器」的邏輯，驅動AI萬卡集群_Flyme

文章圖片

文章圖片

文章圖片

機器之心報道
機器之心編輯部
超節點架構重新定義大規模有效算力新范式。
AI 算力正在迎來全新形態，革新的原點來自國內。
在算力需求呈指數級增長的今天， AI 基礎設施的規模競賽似乎陷入了一個怪圈：隨著集群規模擴大，傳統通過「服務器堆疊和以太網聯接」的模式，會因服務器間帶寬不足、時延大等問題，導致有效算力利用率反而越低，訓練中斷也愈發頻繁。
在昨天的華為全聯接大會 2025 上，華為給出了自己的解法：基于自研的靈衢（UnifiedBus）互聯協議，創新了超節點架構。
這并非又一個單純的硬件升級，而是華為在計算系統架構層的一次深度重構。
要實現超節點架構，最難、也最關鍵的是突破互聯瓶頸。
在傳統服務器架構中，我們可以將其理解為一個由無數獨立「計算島嶼」（服務器）組成的群島，島嶼之間依靠傳統的網絡「航線」（如以太網 / IB 網絡）進行數據交換。
在集群規模較小時，這種模式尚能應付；但當成千上萬個計算單元需要為同一個龐大的訓練任務進行高頻、海量的數據同步時，這些「航線」就會迅速擁堵。
其結果是，大量的計算單元不是在計算，而是在「等待」數據。節點間的通信延遲和帶寬限制成為了整個集群的木桶短板，導致「1+12」的規模效應遞減，算力利用率隨規模擴大而下降。在萬億模型訓練中，約有 40% 的時間，計算在空等通信。
更致命的是，任何一個節點的故障都可能引發連鎖反應，導致動輒耗時數周的訓練任務中斷，造成巨大的資源浪費。可以說，互聯架構的能力，直接決定了 AI 集群規模的天花板。
華為希望以超節點創新的形式，改變傳統集群「堆疊」模式，解決當前大規模 AI 計算最核心的痛點：通信墻。
互聯技術的研發難度極大，正如業界關注的 NVL144 的上市時間已推遲到明年下半年，而華為的獨特之處在于，基于靈衢互聯，已經成功實現了超大規模的超節點部署，驗證了該技術路線的成熟與領先。

從「堆疊」到「融合」，深度互聯推動 AI Scaling Up
「超節點」架構的核心思想，在于「融合」。超節點在物理上由多臺機器組成，但邏輯和使用上可以看做是單一設備。它通過大帶寬、低時延的互聯網絡，將計算單元、存儲單元等組件平等互聯，并統一通信協議與內存編址，實現全局資源池化，從根本上解決了傳統集群的通信墻問題。

基于這樣的架構，能夠將通信時延降低到百納秒級，大幅提升集群利用率，降低通信成本。其最終目標是讓有效算力隨集群規模實現真正的線性拓展，并大幅提升系統的長效可靠性。
華為董事、ICT BG CEO 楊超斌在昨天的華為全聯接大會上表示：「基于靈衢互聯協議，華為創新了超節點架構，可將多臺物理機器深度互聯，實現邏輯層面像一臺機器一樣學習、思考與推理，重新定義了高效、穩定、可擴展的大規模有效算力新范式。」

華為董事、ICT BG CEO 楊超斌在華為全聯接大會上。
覆蓋全場景的創新產品組合
隨著 AI 基礎建設的快速演進，超節點或許會很快成為 AI 基礎設施的新常態。
而超節點不僅僅應用于 AI 數據中心，更需要普惠千行萬業的 AI 計算需求。為此，基于超節點架構，華為打造出滿足大型數據中心、企業級數據中心到小型工作站等全場景算力需求的創新產品。
旗艦標桿：Atlas 950 SuperPoD本次大會，華為發布 Atlas 950 SuperPoD 和 Atlas 960 SuperPoD 超節點，分別支持 8192 及 15488 張昇騰卡，在卡規模、總算力、內存容量、互聯帶寬等關鍵指標上全面領先。

這是給頂級玩家（如云服務商、國家級智算中心）準備的「旗艦武器」，其采用的全液冷和零線纜電互聯的正交架構設計，結合液冷接頭浮動盲插等技術，不僅解決了超高密度下的散熱和互聯難題，更通過系統性創新解決了跨柜長距離、高可靠部署這一業界難題，更極大地提升了系統的長期運行可靠性和機房部署適應性。
其 FP8 算力達到 8E FLOPS ，總互聯帶寬高達 16PB/s ，超過今天全球互聯網峰值帶寬的 10 倍有余。
其創新的「UB-Mesh」遞歸直連拓撲，最大可支持 8192 卡無收斂全互聯，這意味著在理論上，集群內的任意兩個 NPU 都能實現最高效的通信，為萬億參數級別模型的訓練掃清了障礙。
基于超節點，華為同時發布了全球最強超節點集群 Atlas 950 SuperCluster 和 Atlas 960 SuperCluster ，算力規模分別為超過 50 萬卡和百萬卡，成為了全球最強算力集群之一。
華為副董事長、輪值董事長徐直軍在大會演講中強調，基于中國可獲得的芯片制造工藝，華為努力打造「超節點+集群」算力解決方案，可以滿足持續增長的算力需求。
企業普惠：Atlas 850這或許是本次發布中最具市場穿透力的產品。作為業界首個企業級風冷 AI 超節點服務器，它首次將超節點架構帶入企業級風冷數據中心，極大地降低了企業部署超節點架構的門檻。
這意味著，大多數企業無需對現有數據中心進行復雜的液冷改造，在大多數單柜供電能力為 20 千瓦以內的標準風冷機房內，也能構建起最大 1024 卡的超節點集群，這對于推動大模型在更廣泛行業的「后訓練」和多場景推理應用意義重大。

楊超斌發布 Atlas 850 企業級風冷服務器。
基礎計算單元：Atlas 350 標卡基于最新的昇騰 950PR 芯片，這款標卡不僅自身性能大幅提升（如推薦推理場景性能提升 2.5 倍），更關鍵的是，它通過靈衢端口實現了多卡互聯與資源池化。
這意味著，即便是單個服務器內的多張標卡，也能「攢」出一個小型的超節點，讓更大參數的模型和更低時延的應用得以在更小的單位上運行。同時，靈活擴展、可拆可合的特性，也讓用戶能夠根據自己的需求，靈活組裝。
通用計算場景：TaiShan 950 SuperPoD這是華為超節點戰略的延伸，也是一個值得關注的信號，華為將這一架構首次應用于通用計算領域，推出了業界首款通算超節點。
其百納秒級超低時延和內存池化能力，將直接利好數據庫、虛擬化和大數據等對延遲極其敏感的場景，為傳統 IT 架構的性能提升開辟了新的想象空間。
值得一提的是，基于 TaiShan 950 超節點打造的 GaussDB 多寫架構，無需改造即可平滑替代大型機、小型機上的傳統數據庫，為傳統 IT 架構的性能提升開辟了新的想象空間。
以「開源開放」構建護城河
在發布一系列「肌肉感」十足的硬件產品之余，華為反復強調的是「硬件開放、軟件開源」的生態戰略。

在 AI 時代，單一廠商的技術再強，也無法包攬所有場景的應用創新。真正的壁壘，在于生態的繁榮度。
硬件開放：華為將 NPU 模組、刀片、主板等基礎硬件向伙伴開放，鼓勵產業界進行二次開發，共同豐富基于靈衢協議的產品形態，為不同場景提供適配的算力底座。
軟件開源：將昇騰 CANN 和操作系統靈衢組件全面開源，代碼將陸續合入 openEuler 等開源社區，并確保對 PyTorch、vLLM 等主流框架的優先支持。通過強化開源運作，華為致力于使能廣大開發者和合作伙伴，讓超節點走向普惠和協同創新，共建繁榮的 AI 生態。
昨天的大會上，華為除了發布全球最強超節點，公布全新昇騰 950 芯片架構之外，還介紹了自研算力體系的落地情況：基于靈衢的 Atlas 900 A3 超節點當前已經累計部署了 300 多套，服務 20 余個客戶，行業覆蓋互聯網、金融、運營商、電力、制造等。新一代超節點已在客戶真實場景中兌現了價值。
【華為超節點：用「一臺機器」的邏輯，驅動AI萬卡集群】算力的未來，在于打破邊界。「超節點」架構的核心使命，就是構建一個統一、可擴展的算力基石，旨在將一致的、高性能的計算體驗，無縫貫穿到每一個數據中心、企業和工作站。

華為超節點：用「一臺機器」的邏輯，驅動AI萬卡集群

推薦閱讀

王者榮耀馬可波羅動作怎么獲得?王者榮耀五周年祈愿馬可波羅動作獲得攻略

口味重的家常菜有哪些

我的世界盾牌怎么做方法一點不復雜

布谷鳥的特點

小池的作者是誰是哪代詩人小池原文及翻譯

夢見去廟里拜菩薩夢見去廟里拜菩薩什么意思

少女前線春節裝扮怎么樣 cz75春節換裝金蓮花開獲取方式

做眼袋吸脂有什么危害

2022國慶來重慶旅游要不要提供核酸證明？

美圖秀秀如何給圖片加邊框

天津南開電話區號多少，天津的電話區號是多少

狗子發燒會自己好嗎

分享在華為Mate20中開啟一鍵省電的方法。

提高顧客滿意度的途徑

秋雨綿綿思萬千秋雨綿綿的唯美句子

變圓的胖妞……更可愛啦又胖又萌又可愛的圖片