國產萬卡集群首次真機亮相!每節點640卡、總算力50億億次

國產萬卡集群首次真機亮相!每節點640卡、總算力50億億次

文章圖片

國產萬卡集群首次真機亮相!每節點640卡、總算力50億億次

文章圖片

國產萬卡集群首次真機亮相!每節點640卡、總算力50億億次

文章圖片

國產萬卡集群首次真機亮相!每節點640卡、總算力50億億次
對高算力無限渴求的AI時代 , 最關鍵的已經不是單卡性能 , 而是盡可能高效地堆疊足夠多的加速卡 , 構成龐大的集群 。
除了NVIDIA、AMD , 國產廠商也正在這方面全力突破 , 華為、摩爾線程、中科曙光等都是突出代表 。
近日 , 中科曙光正式發并展示了scaleX萬卡超級群 , 這也是國產萬卡基AI集群的首次真機亮相 。
【國產萬卡集群首次真機亮相!每節點640卡、總算力50億億次】
不同于華為封閉式的全自研集群 , 中科曙光scaleX萬卡超集群旨在構建開放、兼容、高密度的超大規模算力基礎設施 。
它支持多品牌加速卡、主流計算生態 , 已經適配優化400多個主流大模型、世界模型等 , 可用于大模型訓練、金融風控、地質能源勘探、科學智能等各種場景 。
中科曙光scaleX萬卡超集群由多個scaleX640超節點(單機柜640卡)、scaleFabirc高速網絡互連而成 , 總計擁有10240塊加速卡 , 總算力超過5EFlops(500億億次每秒) 。
HBM內存總容量超過650TB , 總帶寬超過18PB/s;片間互連總帶寬超過4.5PB/s , 柜間互連總帶寬超過500TB/s 。
單個超節點的基本構成是千卡級計算單元 , 采用“一拖二”高密架構設計 , 實現單機柜640卡超高速一致性互連 , 雙計算柜則組成1280卡計算單元 。

散熱方面 , 采用超高速正交架構、超高密度刀片、浸沒相變液冷、高壓直流供電等多技術融合創新設計 , 成為業界超高集成度的液冷超節點 。
全浸沒式相變液冷技術 , 將服務器完全浸在特制液體中 , 中間液體冷凝換熱裝置CDM的散熱能力高達1.72MW(兆瓦) 。
單機柜算力密度相比業界其他超節點最大提升20倍 , PUE值低至1.04 。
公開信息顯示 , 中科曙光子公司曙光數創擁有139項液冷相關專利 , 是國內唯一實現大規模商業化液冷部署的企業 。

網絡方面 , 中科曙光自研的scaleFabric網絡芯片可提供400Gb/s的超高帶寬、低于1微秒的端側通信延遲、260ns的交換芯片轉發延時 , 超節點間的通信性能達到業內先進水平 , 相比傳統的InfiniBand網絡提升2.33倍 。
基于面向大規模組網優化的網絡協議、超高交換容量的網絡芯片、極致的鏈路可靠性優化 , 集群規模得以擴展到10萬卡以上 , 同時網絡總體成本降低30% 。

優化方面 , 超級隧道設計實現了芯片級、系統級、應用級的三級協同優化 , 通過BurstBuffer、XDS等技術 , 大模型訓推效率提升30-40% , GPU利用率提升最多55% , 同時還有AI應用親和、AI數據加速 。

可靠性方面 , 一體化、智能化的集群管控 , 可大大提高MTBF(平均故障間隔時間)、降低MTTR(平均故障修復時間) , 集群長期可用性達到99.99% , 平均每30天的不可用時間小于4分鐘 。


    推薦閱讀