
文章圖片

文章圖片
“AI時代”已然到來 , 它正改變著我們的工作與生活方式 , 但也將數據中心推向極限 。 訓練大語言模型(LLM)需要海量計算資源和內存 , 這些資源分布在高度互連的GPU集群中 。
為跟上模型復雜性和規模的發展 , 超大規模數據中心運營商正競相將網絡升級至800GE和1.6T以太網 。 但通過更高帶寬的互連來提升網絡容量只是其中一部分 。 真正的挑戰在于如何提升互連的可靠性和效率 , 以承受持續AI訓練工作負載帶來的壓力 。
AI網絡的速度取決于集群中最薄弱的環節 。 每個收發器、電纜和連接器都會影響整個系統的吞吐量、延遲和可靠性 。 性能瓶頸、互操作性差距和尾部延遲會阻礙模型訓練 。 當數據中心運營商將網絡升級到1.6T及更高規格時 , 網絡架構師必須考慮每個組件在繁重的AI工作負載和真實環境條件下的表現 。
符合規格只是開始 。 從設計到制造 , 收發器必須經過嚴格驗證 , 以確保其不僅具備互操作性 , 還能在真實環境條件下實現最佳系統級性能 。
那AI數據中心要實現1.6T網絡面臨哪些挑戰呢?在物理層及更高層面驗證設備性能需要怎樣的測試方法呢?
互連為何成為數據中心瓶頸
訓練大語言模型(LLM)不僅依賴原始計算能力 , 更需要在大規模GPU集群間實現快速、同步的通信 。 這些集群由通過高速電氣和光學互連技術連接的分布式服務器構成 。
訓練任務會被分解并在不同集群節點間并行處理 , 每個節點負責模型的一部分 。 所有節點必須保持同步才能高效推進訓練進程(見圖1) 。
【AI數據中心要實現1.6T網絡需要進行哪些測試?】
圖1:網絡優化不足導致訓練減速與工作負載失效
隨著工作負載規模不斷擴大 , 失衡風險也隨之增加 。 并行處理在節點間形成了強烈的相互依賴性 , 每個節點都是網絡中潛在的薄弱環節 。 無論是收發器、電纜還是交換機 , 單個性能不佳的鏈路都可能成為整個集群的瓶頸 。 在未優化的網絡中 , 由于互連速度緩慢 , GPU超過一半的時間處于閑置狀態 , 等待下一個任務 。
為優化AI工作負載處理 , 數據中心運營商需要對網絡中的每個組件和互連進行壓力測試 。 收發器故障是導致工作負載失效和尾部延遲的主要原因 , 近50%的訓練任務因網絡或計算問題而失敗 。 這要求收發器和互連制造商的設計不僅要符合規格表要求 , 還要能在AI數據中心常見的高溫和大規模工作負載條件下實現高裕量性能 。
物理層收發器合規性驗證
防止互連成為AI數據中心瓶頸的首要步驟是進行物理層性能驗證 。 在開發過程中 , 每個224-Gb/s電氣和光學通道都必須經過嚴格測試 , 以確保其在模擬AI訓練工作負載的壓力條件下具備信號完整性、互操作性和真實環境可靠性 。
電氣發射器與接收器測試
1.6T收發器必須針對每個224-Gb/s電氣和光學通道滿足日益嚴苛的信號完整性和噪聲容限要求 。 諸如IEEE P802.3dj(針對1.6T以太網)等標準對發射器抖動、發射器色散損耗、誤碼率及信噪失真比(SNDR)均規定了限值 。
此外 , AI數據中心的真實工作負載會將設備推向遠超常規運行極限的狀態 。 盡管在日益嚴格的物理層規范下確保性能裕量頗具挑戰 , 但這對設備可靠性和互操作性至關重要 。
信號完整性是電氣測試的重中之重 。 發射器的關鍵測量指標包括抖動、信噪失真比、線性度和信號殘余碼間干擾比(SRI-SIR) 。 對發射器的均衡特性進行表征和調優以實現最佳清晰傳輸 , 是補償信道損耗的關鍵 。
開發人員需要高帶寬示波器進行信號捕獲與分析 。 合規自動化軟件可引導用戶完成復雜的驗證需求和測試 , 以確定每項技術規范的通過/失敗狀態 。 進一步的信號完整性調試軟件則能協助解決具有挑戰性的合規問題 。
接收器測試需要使用誤碼率測試儀(BERT)注入壓力信號模式 , 并在劣化條件下量化誤差率 。 這不僅是合規測試的必要環節 , 對線性可插拔光模塊(LPO)而言尤為關鍵 。 作為一種新型收發器拓撲結構 , LPO通過舍棄數字信號處理器(DSP)來降低功耗 , 這直接導致網絡接口卡和交換機的性能裕量大幅縮減 , 使得主機芯片必須適應更失真、噪聲更大的信號 。
執行此類測試時 , 選擇合適的BERT和示波器需要關注模式發生器與誤差檢測器是否采用正確的調制格式和符號速率(針對224-Gb/s信號需使用120-Gbaud PAM4) 。
光發射器測試
光性能測試的核心在于進行精準的發射器色散與眼圖閉合四進制(TDECQ)測量 。 TDECQ用于量化在特定目標符號錯誤率(SER)下 , 實際發射器相較于理想參考源所引入的功率損耗 , 該指標將帶寬限制、噪聲及碼間干擾等損傷因素聚合為單一度量標準 。
以太網標準將TDECQ作為光收發器合規性測試的主要通過/失敗判定指標 , 因此它是衡量收發器可靠性與互操作性的關鍵參數 。
其他重要的光學指標包括:光調制幅度(OMA , 即光信號0電平與1電平之間的功率差)、消光比(激光性能中高低邏輯電平的功率比)、參考均衡器噪聲增強系數(Ceq)以及激光器相對強度噪聲(RIN) 。
光學測量通常使用低噪聲采樣示波器完成 。 針對224-Gb/s驗證的理想采樣示波器需具備極低本底噪聲(<20μW RMS)和抖動(<90fs RMS) , 以實現最佳光學精度與靈敏度 , 同時還需支持112-Gbaud時鐘恢復功能以滿足224-Gb/s光學測量的合規要求(見圖2) 。
圖2:106-Gbaud PAM4(112Gb/s)信號的TDECQ測量 。
自動化測試程序可與示波器集成 , 快速完成TDECQ合規性驗證 。 采樣示波器既能在研發階段評估器件性能、表征波形質量、分析損傷因素 , 也能在制造環節支持均衡參數的精細調校 。
光學靈敏度越高 , 測量裕量越充足 , 越能精準表征器件的信號完整性表現 。 在不同溫度變化下通過應力眼圖條件進行裕量測試 , 是確保器件在真實環境中穩定運行的關鍵 。
信號完整性檢測與線纜測試
收發器的性能取決于承載信號的互連組件和線纜 。 盡管當前多數AI數據中心依賴光鏈路 , 但仍有部分部署有源銅纜(ACC)或傳統無源銅纜 。
無論采用何種介質 , 在224 Gb/s速率下確保穩健的信號完整性都極具挑戰:信道損耗預算更高、反射干擾更強、串擾更為劇烈 。 微小的不連續性或阻抗失配都會顯著降低性能 , 而表征和分析此類現象需要先進的測量技術 。
S參數分析可從頻域視角呈現插入損耗(信號沿信道傳輸的功率衰減)、回波損耗(阻抗失配引起的反射)和串擾(相鄰信號路徑間的非期望耦合) 。 針對224 Gb/s鏈路的S參數表征 , 需配備支持70-110 GHz帶寬的矢量網絡分析儀(VNA) 。 最新IEEE 802.3標準引入的信道工作裕量(COM)指標 , 將插入損耗、反射、串擾和噪聲整合為閾值化度量標準 。
時域反射法(TDR)通過添加空間分辨率補充頻域分析 , 可揭示復雜PCB走線、連接器和線纜中阻抗失配的位置與程度 。 如今許多現代VNA和高速示波器已集成TDR模式 , 用于隔離不連續性的根本原因 。
最后 , 去嵌入技術對于從測量路徑中剔除測試夾具和適配器的影響至關重要 , 確保測量結果僅反映被測器件(DUT)的真實特性 。 這能提升仿真一致性和測量精度 , 其中自動夾具移除(AFR)算法是高速數字信道中物理結構精確去嵌入的常用方案 。
擴大收發器生產規模的同時確保質量
一旦收發器設計定型 , 制造商需快速提升量產規模以滿足AI數據中心的硬件需求 。 量產爬坡遲緩可能導致徹底錯失市場 , 但制造商也不能偷工減料 。 維持高良率以避免交付故障器件并引發最終部署問題至關重要 。 質量保證工程師面臨的挑戰是在不犧牲可靠性和測試精度的前提下快速推進量產進程 。
許多測試工程師圍繞采樣示波器構建測試程序 , 在生產過程中利用其“調校”光收發器 。 在快速反饋循環中 , 生產系統先將初始設置寫入新制造的收發器模塊(如激光偏置、調制器電壓等) , 隨后立即測量TDECQ等關鍵性能指標 。
系統會基于測量結果調整設置并重新測試指標 , 如此快速迭代直至發射器優化完成且器件通過性能閾值 。
通常 , 優化測試還會在多個溫度設定點下執行 , 以確保每個器件在全工作溫度范圍內均能實現最佳性能 。 采樣示波器可與光開關和測試自動化軟件搭配使用 , 便于對每個通道進行測試 , 支持同時測試多個通道和器件 , 從而縮短測試時間并提高硬件利用率 。
超越物理層測試
滿足物理層合規性是必要條件 , 但這只是確保AI數據中心收發器性能的起點 。 盡管IEEE 802.3dj等標準定義了每通道224 Gb/s的技術規范 , 但真實環境中仍會出現許多物理層驗證無法檢測的問題 。 當鏈路速率接近并突破1.6T時 , 必須通過超越物理層的壓力測試將驗證提升至新維度 。
“1.5層”:前向糾錯(FEC)
在如此高速率下 , 前向糾錯(FEC)對于將所有通道的總誤碼率(BER)維持在可接受水平以實現可靠數據傳輸至關重要 。 盡管接收器合規測試關注預FEC誤碼率 , 但合規接收器仍需達到FEC有效工作的BER閾值 。 后FEC分析的核心是確定FEC失效的錯誤分布 , 即使平均BER符合規格 , 突發錯誤仍可能超過FEC處理極限 , 導致不可恢復的幀丟失 。
鑒于AI數據中心要求近乎零數據丟失 , FEC性能分析至關重要 。 這就是為什么后FEC性能分析(尤其是錯誤分布和幀丟失率FLR)與傳統接收器合規指標同等重要的原因 。 互連測試平臺可通過全1.6T負載下的真實數據包流和損傷注入 , 模擬系統級噪聲與擁塞以對器件施加壓力 。
通過驗證端到端鏈路行為(包括用于檢查接收器處理連續錯誤能力的FEC尾部分析) , 開發人員能夠評估收發器是否真正為AI部署做好準備(見圖3) 。
圖3:優化(左)與未優化(右)的互連FEC裕量性能 。 隨著錯誤數量增加 , FEC碼字數量遞減的現象被稱為“FEC尾部” 。
第2-3層:網絡性能測試
對于AI數據中心收發器 , 測試不能停留在第1層 。 將驗證延伸至完整協議棧性能至關重要 。 開發人員應在真實場景下驗證第2/3層行為 , 以發現與MAC地址、路由、IP數據包處理及傳輸效率相關的問題 , 確保收發器能支持AI訓練工作負載的并行數據傳輸 。
以全線速模擬真實以太網/IP流量模式 , 可暴露僅通過物理波形分析無法發現的路由、流量控制、延遲、鏈路穩定性和擁塞問題(見圖4) 。
圖4:800GE鏈路測試統計顯示零丟包率 , 發送與接收的數據包/字節完全匹配 。
通過結合物理層驗證、FEC感知接收器測試及完整協議棧(1-3層)仿真 , 收發器開發人員能夠更全面地了解器件性能 。 這種整體化測試方案雖看似復雜 , 但在網絡向1.6T以太網及更高規格升級的過程中 , 對確保AI數據中心互連的可靠性、吞吐量和效率至關重要 。
未來方向:前沿探索與研發
當行業準備在224-Gb/s通道上部署1.6T以太網時 , 部分開發者已將目光投向未來 , 即推動數據中心速率邁向3.2T以太網的技術跨越 , 核心在于448-Gb/s通道的實現 。
目前三種主要信令方案正在評估中:224-Gbaud PAM4、174-Gbaud PAM6和150-Gbaud PAM8 , 每種方案在復雜度、帶寬和噪聲容限上各有取舍 。 早期研究表明這些潛在方案均具備可行性 , 部分開發者已借助高速任意波形發生器和采樣示波器探索最優解 。
與此同時 , 隨著性能需求和優先級的變化 , 新型光子集成電路支持的線性可插拔光模塊(LPO)等新興收發器拓撲結構 , 可能影響技術路線選擇 , 并重塑下一代數據標準 。
互連不再僅是需要高級測試的被動鏈路
無論下一代數據標準走向何方 , 有一點已然清晰:互連不再是系統中的被動鏈路 , 而是關鍵的性能賦能要素 。 在新型AI數據中心架構中 , 每個組件、收發器和互連都是潛在的薄弱環節 。 開發人員和架構師必須轉變思維:從單純滿足互操作性合規 , 轉向全層級的性能優化 。
這是一項艱巨的任務 , 但借助先進端到端測試、自動化和仿真工具 , 設計與驗證周期的每一步都可落地實現 , 而每一項改進都能對AI數據中心的高效可靠運行產生深遠影響 。
END
推薦閱讀
- ASML的路要斷了,因為1.4nm芯片,已貴到你用不起了
- 小米YU7預計交付時間出爐:標準版要等53周 Max版等33周
- 不到8000元買敗家之眼!ROG銳龍RTX5060游戲本這價格還要求啥
- 7月換新機不要瞎買,這3款值得重點考慮,五年不用換新
- vivo正式發力,高大上的折疊屏手機,真的要開始普及了嗎?
- 消費者郵寄羅馬仕安克等召回充電寶遭快遞公司拒收,快遞員:查到要罰款
- 新 iPhone 曝光,真要學安卓?
- Docker 容器的 DNS 是怎么實現的!
- 僅2209元,小米剛發布的新機,這次真的要干翻友商了
- 特朗普左右腦互搏:自己的手機中國制造,卻要蘋果回美國造
