領先NV/AMD一代!華為首次線下展出秘密武器:任正非的話應驗

領先NV/AMD一代!華為首次線下展出秘密武器:任正非的話應驗

文章圖片

領先NV/AMD一代!華為首次線下展出秘密武器:任正非的話應驗

文章圖片

領先NV/AMD一代!華為首次線下展出秘密武器:任正非的話應驗

文章圖片

領先NV/AMD一代!華為首次線下展出秘密武器:任正非的話應驗

文章圖片

今年6月 , 華為CEO任正非接受人民日報采訪時曾表示 , 芯片問題其實沒必要擔心 , 用疊加和集群等方法 , 計算結果上與最先進水平是相當的 。
“我們單芯片還是落后美國一代 , 我們用數學補物理、非摩爾補摩爾 , 用群計算補單芯片 , 在結果上也能達到實用狀況 。 ”他說 。
如今 , 這句話已經應驗 。

7月26日 , 2025世界人工智能大會(WAIC)在上海世博中心啟幕 , 華為首次線下展出昇騰384超節點 , 即Atlas 900 A3 SuperPoD , 該產品基于超節點架構 , 通過總線技術實現384個NPU之間的大帶寬低時延互聯 , 解決集群內計算、存儲等各資源之間的通信瓶頸 。
通過系統工程的優化 , 實現資源的高效調度 , 讓超節點像一臺計算機一樣工作 。



在今年5月的鯤鵬昇騰開發者大會上 , 華為推出了昇騰超節點(CloudMatrix 384) , 成功實現業界最大規模的384卡高速總線互聯 。 昇騰超節點具備超大帶寬、超低時延、超強性能的三大優勢 , 包括多款訓練和推理產品 , 基于超節點創新架構 , 更好的滿足模型訓練和推理對低時延 , 大帶寬 , 長穩可靠的要求 。



本月初 , 華為云官微通過一段視頻展示了CloudMatrix 384超節點算力集群的威力——
384顆昇騰NPU(昇騰910C)+192顆鯤鵬CPU全對等互聯 , 形成一臺“超級AI服務器”;
業界最大單卡推理吞吐量——2300Tokens/s;
業界最大集群算力——16萬卡 , 萬卡線性度高達95%;
云上確定性運維-40天長穩訓練、10分鐘快速恢復 。
華為云表示 , 新一代昇騰AI云服務 , 是最適合大模型應用的算力服務 。
簡單來說 , 華為CloudMatrix并非簡單的“堆卡” , 而是通過高帶寬全對等互聯(Peer-to-Peer)來設計 , 這也是CloudMatrix 384硬件架構的一大創新 。
傳統的AI集群中 , CPU相當于公司領導的角色 , NPU等其它硬件更像是下屬 , 數據傳輸的過程中就需要CPU審批和簽字 , 效率就會大打折扣 。
但在CloudMatrix384中 , CPU和NPU等硬件更像是一個扁平化管理的團隊 , 它們之間的地位比較平等 , 直接通過UB網絡通信直接對話 , 效率自然就上來了 。
今年4月份 , 國際知名半導體研究和咨詢機構SemiAnalysis發布專題報道稱 , 華為云最新推出的AI算力集群解決方案CloudMatrix 384(簡稱CM384)憑借其顛覆性的系統架構設計與全棧技術創新 , 在多項關鍵指標上實現對英偉達旗艦產品GB200 NVL72的超越 , 標志著中國在人工智能基礎設施領域實現里程碑式突破 。
據SemiAnalysis披露 , 華為云CM384基于384顆昇騰芯片構建 , 通過全互連拓撲架構實現芯片間高效協同 , 可提供高達300 PFLOPs的密集BF16算力 , 接近達到英偉達GB200 NVL72系統的兩倍 。 此外 , CM384在內存容量和帶寬方面同樣占據優勢 , 總內存容量超出英偉達方案3.6倍 , 內存帶寬也達到2.1倍 , 為大規模AI訓練和推理提供了更高效的硬件支持 。


(圖片引自SemiAnalysis報道)
報道分析稱 , 盡管單顆昇騰芯片性能約為英偉達Blackwell架構GPU的三分之一 , 但華為通過規?;到y設計 , 成功實現整體算力躍升 , 并在超大規模模型訓練、實時推理等場景中展現更強競爭力 。
SemiAnalysis也指出 , 華為的工程優勢不僅體現在芯片層面 , 更在于系統級的創新 , 包括網絡架構、光學互聯和軟件優化 , 使得CM384能夠充分發揮集群算力 , 滿足超大規模AI計算需求 。
此次華為云CloudMatrix 384的發布 , 標志著中國在AI計算系統領域已具備與國際巨頭正面競爭的實力 。
【領先NV/AMD一代!華為首次線下展出秘密武器:任正非的話應驗】SemiAnalysis在報道中特別指出 , 華為的規?;鉀Q方案“領先于英偉達和AMD目前市場上的產品一代” , 并認為中國在AI基礎設施上的突破將對全球AI產業格局產生深遠影響 。

    推薦閱讀