華為突破制裁的密碼，藏在“384超節點”中

在通往通用人工智能（AGI）的路上，如何像其他領域一樣實現彎道超車，是業界繞不開的話題。
在過去的十余年時間里，各項單點技術飛速演進，但隨著單點技術演進的邊際效應遞減和系統復雜度的提升，系統性能的天花板逐步從單點技術的上限演變成系統工程上限：單點優勢越來越像是精致的零件，提升空間有限；但采用系統工程創新，各個部分完美配合、高效協同，實現整個系統的效能最優，才有更積極的現實意義。
如何在發揮單點技術優勢的同時，以整體視角重新構建路徑，通過對復雜系統的極致把控與再組織、找到新的突破可能？解決這個看似不可能的問題，就有望為我們獨立引領最前沿技術發展創造條件。
近期，虎嗅將推出《華為技術披露集》系列內容，通過一系列技術報告，首次全面詳述相關技術細節，為業界提供參考價值。
我們期待通過本系列內容，攜手更多伙伴共同構建開放協作的生態系統，助力昇騰生態在中國的蓬勃發展。

《華為技術披露集》系列
VOL.16 ：384超節點

在5月底的昇騰AI峰會上，華為正式推出“昇騰 CloudMatrix 384超節點”算力集群解決方案。
根據官方公告，這個算力平臺基于384顆昇騰芯片構建，通過全互聯對等架構實現芯片間高效協同，可提供高達300 PFLOPs的稠密BF16算力。
這一能力，已經超越了英偉達此前發布的B200 NVL 72平臺， 180PFLOPs的稠密BF16算力，為中國企業終結了底層算力的憂慮。
在禁令層層加碼的情況下，為什么華為還能利用工藝制程落后的昇騰910系列芯片，在算力集群上實現后來居上？
“以非摩爾補摩爾、以集群補單芯片”在討論華為如何短時間內實現趕超的問題前，我們需要先明確一個問題：“384超節點”算是華為在制裁下的無奈之舉嗎？
不完全是。
除了制裁下尋求破局這個角度，華為打造“超節點”這件事，恰恰展現了其作為全球頂尖科技公司的遠見——隨著制程技術的不斷升級，半導體性能提升的摩爾效應正在加速失效，不僅芯片需要面對漏電、結構迫近物理極限等一系列問題。技術升級帶來的成本指數級飆升，也正在拉低新制程的革新優勢。
以實際的芯片落地為例，即使客戶選擇全球頂尖代工廠，從5納米升級到3納米制程，代工成本將增加數倍，但晶體管密度也只有15%-20%的提升。這種“投入多，但提升少”的困境，正隨著制程工藝的持續升級而不斷加劇。
既然無法從“單點”解決發展的挑戰，那就只能從“系統層面”下手了。通過系統工程的創新，彌補芯片工藝落后的問題。
前不久，黃仁勛公開表達， “從技術參數看，華為的CloudMatrix 384超節點，性能上超越了英偉達” 。 CloudMatrix384超節點里面有384個卡，這些卡要連在一起像一臺計算機一樣高效的工作，除了計算，還包括內存，通信，存儲，架構，調度，并行，散熱，供電，高速互聯等資源調度問題。
只有讓各個組成部分有效地配合在一起運行，才能使整個系統效能最佳。一位華為技術專家向虎嗅表示，“超大規模MoE模型的訓練就是一項復雜的系統工程，挑戰很大，如果你深入下去就會發現到處是擁塞，很多是串行，到處是等待，很大情況是資源不匹配，還有一些則是重復計算或重復數據搬運，蘊藏著巨大的改進空間” 。
面對這些問題，華為的研發人員決定從底層重構現有的算力架構。
一場“系統工程的勝利”昇騰團隊做的第一個“重構” ，就是“全對等高速互聯的架構” 。
展開來說，這是一項基于高速總線互聯技術實現的重大突破，它相當于把總線從服務器內部，擴展到整機柜、甚至跨機柜。
在超節點范圍內，用高速總線互聯替代傳統以太，通信帶寬提升了15倍；單跳通信時延也從2微秒做到200納秒，降低了10倍，使集群如同一臺計算機般協同工作，有效突破系統性能限制。
緊接著，團隊又設計了“全局內存統一編址” ，通過虛擬化技術將分散在各節點的內存池虛擬為統一地址空間，支持跨節點直接內存訪問。
這使得大模型訓練中頻繁的參數同步操作，無需經過傳統的“序列化-網絡傳輸-反序列化”流程，直接通過內存語義通信完成，可滿足大模型訓練/推理中的小包通信需求，提升專家網絡小包數據傳輸及離散隨機訪存通信效率。
值得一提的是，研發團隊還對“384 超節點”的資源調度進行了升級：細粒度動態切分，基于對MoE模型結構的深度感知，超節點可將模型層間計算任務按專家分布動態切分至不同節點。例如對包含288個專家的模型，可將每個專家分配至獨立NPU ，同時通過智能路由算法優化跨節點通信路徑，使計算與通信耗時比從傳統的1:1升至3:1 。
事后來看，完成上述重構設計，行業中可能只有華為能在短時間內完成。因為其背后是涉及的是基礎軟件、計算、內存、通信、架構、調度、散熱、供電、高速互聯等多個領域的“協同作戰” ，而且每個領域都需要深厚的技術積累。
就比如說最基礎的通信，傳統銅纜在龐大規模的集群節點中會產生明顯的信號衰減，因此昇騰團隊選擇了華為自主研發的400G光模塊解決互聯問題；又由于“超節點”的網絡拓撲發生變化，還不能用傳統的光調度系統，但華為此前研發的OXC（全光交叉聯接）剛好可以解決這個問題。
類似的例子還有很多，應該說在CloudMatrix 384超節點的研發過程中，華為過去幾十年在硬件工程和基礎軟件方面積累的經驗，被集中展示了出來。
據悉，華為內部有個算力會戰，集結了超過萬人的團隊，把華為云、模型、底座、芯片、硬件工程、基礎軟件的人集結在一起，跨部門作戰，深度協同，實現了“大雜燴”技術的有效利用和協同創新。這種“多產業集群”優勢，恐怕是行業內任何一家公司都不具備的。
此外，從縱向來看，也就是把范圍縮小到AI產業中，華為也是為數不多既能做算力基礎設施，也能做基礎大模型的公司，這可以在公司內部形成一個高效運轉的“技術飛輪” 。華為專家強調：“只有做基礎大模型，才知道對算力底座有什么要求，才知道算力底座該怎么改進。沒有這樣的牽引和支撐驅動機制，可能都不能發現深層次的問題。 ”
近期華為披露了盤古Ultra MoE準萬億模型，同時，盤古Pro MoE大模型在SuperCLUE榜單并列百億模型榜首的成績，這充分映證了基于昇騰國產算力平臺也可以訓練出世界一流的大模型。
生態，還是生態大家都知道，國產算力在生態方面是劣于英偉達CUDA生態的，這個問題需要長時間的改進。
“能用”和“易用”是兩個維度上的問題。想要將“384超節點”變成一套“易用”的算力平臺，則需要華為在生態上提供更加全面的支持。
尤其考慮到此前開發者早已習慣于PyTorch、TensorFlow這種深度學習框架，或者是英偉達的CUDA 。
而華為也早早地考慮到了這個問題。昇騰的異構計算架構CANN ，從誕生之日起，就支持包括上述的開源學習框架。另外一方面，華為的AI框架昇思MindSpore已將生態兼容性列為最重要的事情，越來越貼近開發者的使用習慣。
【華為突破制裁的密碼，藏在“384超節點”中】虎嗅了解到，華為內部明確要求將MindSpore的易用性放在首位，要做到讓開發者“過去怎么用PyTorch ，現在就可以怎么用MindSpore” 。針對企業遷移痛點，華為推出專為昇騰打造的“遷移助手”MSAdaptor ，在用戶界面與PyTorch API 保持一致，實現模型Day0遷移和一鍵部署。
華為還針對端到端的故障定位和故障快速恢復進行了技術改進。一位華為內部人士向虎嗅透漏，在718B參數的Pangu Ultra MoE訓練中，其故障恢復能夠由之前的幾個小時縮短到“分鐘級” 。
值得一提的是，華為盤古大模型首先要考慮的問題是幫助關基行業，像礦山、鋼鐵、電力、交通、能源、醫療、金融、港口等智能化升級，為此華為設立了由中高級專家組成的“小巧靈突擊隊” ，到一線現場支持客戶用好昇騰。
在生態方面的建設工作，注定會是漫長的過程，昇騰的生態也在逐步完善，也包括對業界主流生態的兼容。據悉，華為近期將對外公布盤古模型和相關技術代碼的開源計劃，進一步使能客戶自主開發、優化，匹配客戶的應用需求和開發模式。
在AI基礎設施加速推進的今天，昇騰算力平臺，承載的不僅是這家公司的技術野心，更是中國AI產業突破技術限制的希望。這場以整合創新驅動的算力革命，或許正在書寫科技競爭的全新范本。