中科曙光scaleFabric首發:中國高端RDMA邁入自研時代

中科曙光scaleFabric首發:中國高端RDMA邁入自研時代

文章圖片

【中科曙光scaleFabric首發:中國高端RDMA邁入自研時代】中科曙光scaleFabric首發:中國高端RDMA邁入自研時代

【TechWeb】3月12日消息 , 中科曙光宣布實現國產高端原生RDMA技術重大突破 , 正式發布首款全棧自研400G無損高速網絡——scaleFabric 。 該產品基于原生RDMA架構 , 從底層的112G SerDes IP、硬件設備到上層的管理軟件實現100%自主研發 , 填補了國內數據中心高速網絡領域的空白 , 以比肩國際頂尖同類產品的性能表現 , 為超大規模智算集群鋪就了一條高帶寬、低時延、真無損、超可靠的“算力大動脈” 。
高端智算互聯待破局
隨著AI大模型訓練與高通量推理計算需求持續擴大 , 萬卡級乃至更大規模的算力集群正成為主流形態 。 研究表明 , 在大規模分布式訓練中 , 網絡通信耗時占比已達到30-50% , 網絡性能直接影響算力系統的整體效率 。
在大規模智算集群領域 , RDMA(遠程直接內存訪問)網絡已成為算力中心的基本需求 , 憑借零丟包、高帶寬、低延遲等特征 , 可極大提升通信效率 。 其中 , InfiniBand憑借低時延與原生無損傳輸能力 , 在全球頂級超算與AI集群中被廣泛采用 。 根據TOP500榜單 , 目前全球約60%的高性能計算系統采用InfiniBand網絡架構 。
長期以來 , 從高速SerDes IP、核心芯片到IB網卡、IB交換機等設備 , InfiniBand相關產業鏈基本被海外廠商壟斷 。 隨著AI算力需求快速增長及數據中心網絡持續演進 , 自主高性能RDMA網絡正成為產業關注焦點 。 中國工程院院士鄔賀銓表示 , 高速網絡作為算力基礎設施的核心關鍵技術 , 其自主可控性直接關系到國家算力基礎設施的安全與發展質量 。 在大模型訓練和智算集群規?;渴鸨尘跋?, 網絡需要同時具備超低延遲、超高帶寬與無損傳輸能力 , 而RDMA高速網絡正是智算集群的“算力大動脈” 。
中國工程院院士鄔賀銓 視頻致辭
國產原生RDMA問世
scaleFabric是國內首款原生無損RDMA高速網絡 , 面向超大規模智算集群設計 , 從核心關鍵IP、交換芯片、網卡到交換機、驅動與管理軟件均實現自主研發 , 構建起從硬件到軟件的完整技術體系 。
此次發布的scaleFabric400系列網絡產品技術規格全面對標英偉達NDR , 部分指標實現趕超 。 性能方面 , scaleFabric400網卡基于PCIe5.0接口 , 端口帶寬達400Gbps , 端到端通信時延低至0.9微秒;scaleFabric400交換機單端口帶寬達800Gbps , 整機交換容量可達雙向64Tbps , 交換時延約260納秒 , 支持800G×40或400G×80端口擴展 。 這一性能組合 , 可充分滿足萬卡級AI訓練集群對高帶寬、低時延網絡的極致需求 。
穩定性與擴展能力上 , 產品采用基于信用的無損流控機制 , 從根源規避擁塞丟包風險 , 鏈路故障恢復時間小于1毫秒 , 已支撐近萬卡集群持續穩定運行驗證超10個月 。 與英偉達NDR相比 , 交換機端口密度提升25% , 網卡最大QP數支持提升100% , 單子網互連規模是傳統IB的2.33倍 , 可輕松支持最大11.4萬卡集群部署 , 同時網絡總成本可降低30% 。
在大規模AI訓練系統中 , 網絡互聯能力已成為影響算力利用率的關鍵變量 。 scaleFabric的發布 , 標志著國產智算網絡在高端RDMA領域實現重大突破 。
萬卡集群率先驗證
在實際應用層面 , scaleFabric目前已部署于國家超算互聯網鄭州核心節點 , 支撐三套萬卡級scaleX智算集群上線運行 , 總規模達3萬卡 。 中科曙光高級副總裁李斌表示 , 隨著產品在超大規模智算集群中的落地應用 , 國產原生RDMA技術路線正逐步走向成熟 , 圍繞其形成的高性能網絡產業生態也正在加速形成 。
運行數據顯示 , 該網絡系統在大規模集群環境中保持穩定運行 , 可支持跨POD組網及大規模并行訓練任務 , 為國產原生無損RDMA網絡在高端智算基礎設施中的應用提供了實踐驗證 。
依托在高性能計算、存儲與網絡領域的長期技術積累 , 中科曙光已逐步形成“算—存—網”協同發展的完整算力底座能力 , 為大規模AI基礎設施提供系統級支撐 。 隨著政府工作報告提出持續推進“人工智能+” , 算力基礎設施正進入新一輪升級周期 。 國產原生RDMA網絡的落地 , 意味著我國在智算互聯這一關鍵環節開始形成自主技術路徑 , 補齊了我國智算基礎設施中的關鍵一環 。

    推薦閱讀