中科曙光scaleFabric首發：中國高端RDMA邁入自研時代

2026-04-13 軟件蘋果macbook

文章圖片

【中科曙光scaleFabric首發：中國高端RDMA邁入自研時代】

【TechWeb】3月12日消息，中科曙光宣布實現國產高端原生RDMA技術重大突破，正式發布首款全棧自研400G無損高速網絡——scaleFabric 。該產品基于原生RDMA架構，從底層的112G SerDes IP、硬件設備到上層的管理軟件實現100%自主研發，填補了國內數據中心高速網絡領域的空白，以比肩國際頂尖同類產品的性能表現，為超大規模智算集群鋪就了一條高帶寬、低時延、真無損、超可靠的“算力大動脈” 。
高端智算互聯待破局
隨著AI大模型訓練與高通量推理計算需求持續擴大，萬卡級乃至更大規模的算力集群正成為主流形態。研究表明，在大規模分布式訓練中，網絡通信耗時占比已達到30-50% ，網絡性能直接影響算力系統的整體效率。
在大規模智算集群領域， RDMA（遠程直接內存訪問）網絡已成為算力中心的基本需求，憑借零丟包、高帶寬、低延遲等特征，可極大提升通信效率。其中， InfiniBand憑借低時延與原生無損傳輸能力，在全球頂級超算與AI集群中被廣泛采用。根據TOP500榜單，目前全球約60%的高性能計算系統采用InfiniBand網絡架構。
長期以來，從高速SerDes IP、核心芯片到IB網卡、IB交換機等設備， InfiniBand相關產業鏈基本被海外廠商壟斷。隨著AI算力需求快速增長及數據中心網絡持續演進，自主高性能RDMA網絡正成為產業關注焦點。中國工程院院士鄔賀銓表示，高速網絡作為算力基礎設施的核心關鍵技術，其自主可控性直接關系到國家算力基礎設施的安全與發展質量。在大模型訓練和智算集群規?；渴鸨尘跋?，網絡需要同時具備超低延遲、超高帶寬與無損傳輸能力，而RDMA高速網絡正是智算集群的“算力大動脈” 。
中國工程院院士鄔賀銓視頻致辭
國產原生RDMA問世
scaleFabric是國內首款原生無損RDMA高速網絡，面向超大規模智算集群設計，從核心關鍵IP、交換芯片、網卡到交換機、驅動與管理軟件均實現自主研發，構建起從硬件到軟件的完整技術體系。
此次發布的scaleFabric400系列網絡產品技術規格全面對標英偉達NDR ，部分指標實現趕超。性能方面， scaleFabric400網卡基于PCIe5.0接口，端口帶寬達400Gbps ，端到端通信時延低至0.9微秒；scaleFabric400交換機單端口帶寬達800Gbps ，整機交換容量可達雙向64Tbps ，交換時延約260納秒，支持800G×40或400G×80端口擴展。這一性能組合，可充分滿足萬卡級AI訓練集群對高帶寬、低時延網絡的極致需求。
穩定性與擴展能力上，產品采用基于信用的無損流控機制，從根源規避擁塞丟包風險，鏈路故障恢復時間小于1毫秒，已支撐近萬卡集群持續穩定運行驗證超10個月。與英偉達NDR相比，交換機端口密度提升25% ，網卡最大QP數支持提升100% ，單子網互連規模是傳統IB的2.33倍，可輕松支持最大11.4萬卡集群部署，同時網絡總成本可降低30% 。
在大規模AI訓練系統中，網絡互聯能力已成為影響算力利用率的關鍵變量。 scaleFabric的發布，標志著國產智算網絡在高端RDMA領域實現重大突破。
萬卡集群率先驗證
在實際應用層面， scaleFabric目前已部署于國家超算互聯網鄭州核心節點，支撐三套萬卡級scaleX智算集群上線運行，總規模達3萬卡。中科曙光高級副總裁李斌表示，隨著產品在超大規模智算集群中的落地應用，國產原生RDMA技術路線正逐步走向成熟，圍繞其形成的高性能網絡產業生態也正在加速形成。
運行數據顯示，該網絡系統在大規模集群環境中保持穩定運行，可支持跨POD組網及大規模并行訓練任務，為國產原生無損RDMA網絡在高端智算基礎設施中的應用提供了實踐驗證。
依托在高性能計算、存儲與網絡領域的長期技術積累，中科曙光已逐步形成“算—存—網”協同發展的完整算力底座能力，為大規模AI基礎設施提供系統級支撐。隨著政府工作報告提出持續推進“人工智能+” ，算力基礎設施正進入新一輪升級周期。國產原生RDMA網絡的落地，意味著我國在智算互聯這一關鍵環節開始形成自主技術路徑，補齊了我國智算基礎設施中的關鍵一環。

推薦閱讀

上一篇：美國實現光刻創新，金屬有機框架光刻膠有望打造5nm極限硅芯片

下一篇：OpenClaw陷“盜刷”風波，官方硬核辟謠：技術邏輯不通，純屬玩梗