這一次,中國終于有了自己的IB網絡

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

這一次,中國終于有了自己的IB網絡

文章圖片

講真 , 作為一枚老登網工 , 我有點繃不住了 。

中科曙光正式發布首款國產InfiniBand原生無損RDMA高速網絡——scaleFabric 。

這可不是普通發個交換機、出個網卡那么簡單 , 看完發布會我長出了一口氣:
國產高性能網絡 , 終于填平了「沒有IB」這個坑 。

接下來 , 我們先看看曙光這次到底發布了什么 。
再來聊聊 , 為什么我會說:這件事 , 讓我繃不住了 。
曙光到底發布了啥簡單說 , 曙光這個「scaleFabric」是一套國產IB網絡套裝 。
不僅最底層的112G PAM4高速Serdes IP是自研的 , 構建整套體系最重要的網絡芯片也是自研的 , 從根上實現自主可控 。

根基牢了 , 上面就可以衍生出很多不同的網絡設備 。
必須給大家來幾張高清大圖 , 看看咱們國產IB交換機和網卡 , 顏值也是相當能打 。
? 曙光scaleFabric400 2U風冷高速交換機
風冷版本 , 40個800Gbps IB網絡端口
? 曙光scaleFabric400 1U液冷高速交換機
冷板液冷版本 , 40個800Gbps IB網絡端口
? 曙光scaleFabric400 網卡
PCIe5.0 400G IB網卡 , 支持國密安全啟動
好了 , 產品靚圖和基本規格曬完 , 咱們講點這些硬邦邦的家伙背后的故事……
為何曙光要啃下這塊硬骨頭這東西到底干啥的 , 真有這么重要?
說來話長 , 大模型這類業務對算力的需求太猛了 , 很多需求 , 不光單臺8卡機干不了 , 連牛哄哄的巨無霸超節點也搞不定 。

單機搞不定 , 就必須組團 , 搞成智算集群 , 甚至要萬卡+集群 。
智算集群scale out互聯離不開網絡 , 要么選IB , 要么RoCE , 傳統以太網干不了 。

道理大家都懂 , 但我們面臨兩難選擇:
IB , 全稱InfiniBand , 這玩意兒誕生快30年了 , 都沒個中文名 。
這是一套專為高性能計算、AI大規模訓推集群設計的互聯體系 , 主打超低時延、超高帶寬、無需CPU摻和的RDMA通信 。

這IB吧 , 除了貴基本沒毛病 。
但一直以來都是國外N記一家獨大 , 生態封閉 , 有很大的供應鏈風險 。

而RoCE呢 , 選擇面倒是挺寬 , 主流數通公司都有 。
但是RoCE的底層身板不是太好(還是以太網) , 時延比IB高 , 也不像IB那么即插即用 , 比較依賴網卡、交換機、擁塞算法等等的綜合優化 。

如果優化到位 , 還能跟IB叫板 。
如果不到位 , 實際體驗就和紙面參數有差距 , 這也是很多不差錢客戶無腦選IB的原因 。

所以 , 網工出身的我 , 做夢都在想啥時候咱們也能有整套IB網絡呢 。
正做夢呢 , 這國產IB它竟然就來了 。

曙光一出手 , 便知有沒有我真正興奮的是:這一次 , 我們不光有 , 而且我們還能對標 。
讓我們拿出放大鏡 , 深扒一下曙光IB全家桶的細節↓
?先看性能
作為服務器側的通信利器 , ScaleFabirc400網卡端到端通信時延低至0.9μs 。
而作為集群互聯的中樞 , ScaleFabric400交換機轉發時延<260ns , 與國際頂尖IB產品(N記NDR)性能持平 , 吊打RoCE網絡 。

下面這組圖是實測數據 , 包括讀/寫/Send操作的帶寬和延遲表現 , 藍線是曙光 , 紅線是N記 , 完全可以對標 , 甚至有些指標曙光scaleFabric表現還更好 。






在帶寬上 , scaleFabric400網卡基于PCIe5.0 , 端口帶寬400Gbps 。
scaleFabric400交換機單端口飆到800Gps , 對齊國際頂流 , 領先國產RoCE方案一到兩代 , 整機交換容量雙向64Tbps , 滿足萬卡集群大吞吐、低時延需求需 。

?再看可靠性
既然是IB , 那咱用的就是IB基因里流淌的「基于信用的無損流控機制」 。
這種機制就好比“接收端按庫存能力發放配額 , 發送端按配額發貨” , 從而避免緩存打爆、丟包 , 實現確定的、可靠的傳輸 。

傳統以太網不管這一套 , 一個勁兒猛發 , 撐爆了丟包了就重新發 。
而改良版的無損以太網引入PFC機制 , 也是檢測到快撐爆了才會喊停 。

這么說吧 , IB的信用流控機制粒度更細 , 實現真無損網絡 , 更穩定、無丟包、無PFC風暴風險 。
同時 , 曙光scaleFabirc具備亞毫秒級的鏈路故障快速恢復技術 , 大模型訓練過程完全無感 , 而RoCE網絡往往需要秒級恢復 。

在實戰中 , 曙光scaleFabirc通過高容錯設計 , 保障大規模集群長期穩定運行 , 已實現近萬卡驗證規模持續穩定運行超10個月 。

?最后看擴展能力
現在動不動就要萬卡、十萬卡集群 , 對網絡的擴展性要求極高 。
當前市面上的主流IB產品也就能做到單子網4.9萬卡 , 曙光scaleFabric單個子網支持11.4萬卡規模的集群 , 同時網絡總成本降低30% 。

如果遇到更大規模的組網場景 , scaleFabric可實現跨POD靈活擴展 , 適配國家超算互聯網、大型智算中心等超大規模算力集群建設 。

曙光這次突破 , 意義重大曙光是真投入、真下功夫啊 , 在國產CPU、GPU、IO芯片、超集群的歷史戰績 , 咱就先按下不表 , 單說這次IB網絡的突破 。
首先 , 它打破國外壟斷 , 補上了國產IB網絡這塊大短板 。

第二 , 不只是有 , 還很能打 , 帶寬、時延、穩定性、擴展性全面對標 , 智算集群不會被網絡拖后腿 。
第三 , 不光能打 , 還超有性價比 , 組網成本比市面IB方案降低約30% , 又彌補了RoCE方案在性能和運維上的短板 。

第四 , 不止支持智算 , 還支持超算 , 一網貫通超智融合 , 避免重復建設兩套體系 , 該方案在國家超算互聯網核心節點已落地 。

第五 , 不止自己玩 , 還能帶動產業 。
目前「光合組織AI計算開放架構」下設「AIDC高速網絡工作組」 , 拉著上下游一起做生態、推標準、搞方案 , 把國產高性能網絡這條路真正走通 。

讓中國算力 , 更好地跑在中國網絡上 , 這波大考 , 曙光滿分交卷!


【這一次,中國終于有了自己的IB網絡】

    推薦閱讀