無光不AI:AI算力,向光而逐

無光不AI:AI算力,向光而逐

文章圖片

無光不AI:AI算力,向光而逐

文章圖片

無光不AI:AI算力,向光而逐

文章圖片

無光不AI:AI算力,向光而逐

文章圖片

無光不AI:AI算力,向光而逐



在全球人工智能大會WAIC2025上 , AI智算中心超節點無疑是最火爆的話題 。 各家都在發布自己的超節點方案 , 其中華為昇騰384超節點作為官方認證鎮館之寶 , 成為各大媒體、國內外觀眾的必打卡點之一 。

在大模型時代 , AI算力必須肩負起大規模并行計算的任務 。 依托單卡完成的AI計算必須走向集群化計算 。 產業界正在發生從萬卡集群向十萬卡集群演進的趨勢 。 而大規模AI集群 , 必須使用光互聯方案 。 隨著AI計算集群規模越來越大 , 性能越來越高 , 散熱和供電等問題會非常棘手 。 以光纖完成的光互聯可以減少線纜的利用 , 降低散熱、供電等方面的需求 。 可以說 , 光互聯是大規模AI集群組網的必選方案 。
昇騰384超節點就是選擇了光互聯之路 , 才能馴服如此龐大的AI巨獸 。 昇騰384超節點采用了384顆昇騰NPU , 用到了總長度達到316公里的3168根光纖 , 通過6912個星云光模塊實現NPU全MESH互聯 。 如此規模的光互聯組網中 , 光鏈路的端面臟污問題就成為計算系統能夠支持長穩訓練的最大痛點 。

(數據來源:2025芯光論壇 , 華為云)
一方面 , 端面臟污可能帶來計算集群的網絡閃斷頻發故障率奇高 。 根據2023年華為云現網2萬+個鏈路閃斷率統計分析 , 系統初始閃斷率達到37.27% , 而光鏈路端面臟污是閃斷的主要根因 。
端面臟污帶來的閃斷問題 , 可能給計算集群帶來的損失也非常大 。 根據科大訊飛萬卡集群分析 , 集群設備空轉7天的損失可以達到1548.61萬元 。
而想要識別光鏈路的端面臟污 , 傳統方法現網運維存在著工程量和代價巨大的問題 。 傳統檢測手段檢出率只有48.3% , 假如面對超節點超過11萬條光鏈路的工作量 , 傳統運維檢測方式根本無法入手 。
昇騰384超節點想要實現以系統破單點的算力突圍 , 就必須克服掉光鏈接的運維與檢測難題 。 為此 , 超節點配置了6912個星云光模塊 , 實現了以智能運維檢測 , 突破AI算力極限的一次“逆襲” 。

數智化系統的三要素是存、算、網 。 三者相輔相成 , 互為犄角 。 在大規模AI算力的集群式組網中 , 網絡聯接能力發揮著關鍵的作用 , 甚至可以成為破局的關鍵 。 在打造昇騰384超節點的過程中 , 華為在光通信領域的技術力得到了充分釋放 , 實現了以長板克短板的戰略化思維 。 而具體實現這一目標的技術王牌 , 就是華為星云光模塊 。

昇騰384超節點能夠達成 , 依靠的是超大規模的光鏈路組網 。 每個昇騰384 Pod配置了6912個星云400G光模塊 , 其中5376個用于scale up , 1536個用于scale out網絡 。
星云400G光模塊的作用在于可以有效解決智算中心網絡的一系列瓶頸與難題 , 實現超大規模AI計算集群的系統性突破 。
其中 , 面向端面臟污等問題 , 星云光模塊極具創造性地實現了“星云智檢StarSensor” 。

星云400G光模塊具備光口、電口健康度診斷、自動臟污檢測等功能 。 通過增強型光模塊級壓測 , 星云光模塊可以更容易識別出光鏈路臟污引起的突發誤碼 , 從而有效降低閃斷風險 。 根據相關數據 , 星云400G光模塊的臟污檢測算法 , 可以實現光鏈路端口檢測準確率達到90+% , 實現分鐘級檢測 , 從而解決現網閃斷的難題 。
對端面臟污的高精準智能化識別 , 可以全面提升光鏈路的運維效率 , 讓超大規模AI算力真正落地 , 提升系統的可用性 , 實現了對超大規模AI計算集群的360°無死角防護 。
開啟星云光模塊的星云智檢功能后 , 華為云現網數據表明鏈路故障報錯率降低了13.9倍 。
【無光不AI:AI算力,向光而逐】星云光模塊的這道“光” , 照亮了中國AI算力的前路 。 它支撐超節點成功構筑了全球規模最大、技術力最為領先的AI計算集群 , 一舉超過了此前備受矚目的英偉達NVL72 。 更重要的是 , 它印證了以系統破單點這條AI算力路徑的可行 。

在作為底座的AI算力層面 , 發現隨著華為昇騰384的出現與成熟 , 中美在AI算力領域呈現出各有所長 , 基本持平的發展態勢 。 憑借華為在光通信領域多年的積累 , 面向智算中心的AI原生光互聯解決方案星云光互聯成為一張王牌 , 幫助超節點構筑起面向未來的AI算力底座 。
以此為契機 , 中國的光通信產業正發生著快速的升級與迭代 。 伴隨著光進銅退的大勢所趨 , 光互聯成為AI算力發展的關鍵助力 。 星云光模塊不僅能夠幫助昇騰 384超節點馴服AI算力的巨獸 , 更能夠幫助中國智算產業實現整體性的突破與升級 。
未來的AI競賽 , 將會是結構性、體系化的競賽 。 星云光互聯這樣的技術王牌 , 將會在可見的未來里發揮出更大的牽引效應 , 成為智算中心建設與AI計算集群組網過程中的標配 。
逐“光”而行 , 正成為中國AI突破限制的可行之路 。

    推薦閱讀