英偉達回應CPO“質疑”,將于今年規模部署

英偉達回應CPO“質疑”,將于今年規模部署

C114訊 2月5日消息(水易)近日 , 英偉達在一場“面向千兆瓦級工廠的共封裝硅光交換技術”的研討會上 , 英偉達網絡高級副總裁Gilad Shainer深入介紹了英偉達打造AI超級的方法 , 以及CPO技術在提升能效和系統可靠性方面所扮演的關鍵角色 。
CPO破局光互連功耗挑戰
Gilad Shainer表示 , 現代AI基礎設施的核心理念是“數據中心即計算機” 。 他強調 , AI工作負載依賴大量計算單元協同運作 , 而網絡正日益成為決定整個系統能力的關鍵因素 。
他將AI超級計算機描述為由四大基礎設施組成:一是Scale-up , 通過NVLink將英偉達H100 GPU互連 , 形成所謂的“機架級GPU”;二是Scale-out , 采用Spectrum-X作為端到端網絡架構 , 連接多個機架 , 支持跨數十萬顆GPU的分布式AI工作負載;三是上下文內存存儲 , 滿足推理階段對低延遲、高吞吐存儲的需求;四是Scale-across , 基于Spectrum-X的技術方案 , 當單個站點受電力或物理空間限制時 , 可將多個數據中心連接成一個統一的計算引擎 , 目標是構建“千兆瓦級”AI工廠 。
光互連技術在其中發揮著重要作用 。 不過他指出 , 隨著每一代帶寬翻倍 , 的功耗也在持續上升 , 目前已接近計算資源總功耗的10% 。 因此 , 在電力受限的數據中心中 , 降低光互連功耗可直接轉化為更高的有效算力 。
CPO技術將原本置于外部可插拔光模塊中的光引擎 , 集成到交換芯片的同一封裝內 。 通過縮短電通道長度并減少信號轉換環節 , 英偉達預計可顯著降低功耗并提升信號質量 。 他提到 , 當前可插拔光模塊功耗約為20-25瓦 , 而CPO方案可在Scale-out基礎設施中實現最高5倍的功耗節省 。
除能效外 , CPO還能減少組件和所需數量 , 提升數據中心整體可靠性 , 并延長“首次中斷時間”(time to first interrupt) 。 Gilad Shainer表示 , 英偉達已為Spectrum-X以太網平臺和Quantum-X InfiniBand平臺開發了支持CPO的 , 并與生態合作伙伴共同推進封裝工藝、連接方式及液冷設計方案 。
正面回應規模部署“質疑”
在問答環節 , Gilad Shainer表示 , 英偉達預計CPO的部署將于今年啟動 。 目前已宣布三家合作伙伴CoreWeave、Lambda和德克薩斯高級計算中心(TACC)將在今年上半年部署基于Quantum-2 InfiniBand平臺的CPO系統 。 Spectrum-X以太網平臺的CPO產品計劃于今年下半年開始出貨 。
關于CPO的可靠性 , 他指出 , 可插拔光模塊的可靠性問題多源于人為操作 , 如清潔、插拔、意外觸碰等都容易損壞光模塊 。 而CPO將光引擎集成到交換機封裝內部 , 并對整個系統進行一體化驗證 , 可有效減少灰塵污染和人為操作風險 , 從而提升系統韌性 。 英偉達已經與合作伙伴打造全系統制造流程 , 確保部署前整機100%驗證 , 而非單一組件 。
被問及與臺積電的合作時 , Gilad Shainer強調 , 雙方共同開發的共封裝工藝注重可靠性和可測試性 。 他還提到 , 早期CPO嘗試多采用較大的基于MZM的光引擎 , 而英偉達則采用基于微環調制技術的小型化光引擎 , 以適配高密度大端口AI網絡 。 此外 , 英偉達還開發了光纖對準技術和高功率激光器 , 以進一步減少所需激光器數量 。
針對CPO相比可插拔方案在靈活性方面的劣勢 , Gilad Shainer承認CPO需預先選定特定技術 , 但他稱英偉達的方案已覆蓋典型數據中心內部距離 , 甚至可連接園區內不同建筑 , 從而減少數據中心內對多種光模塊類型的需求 。 對于超長距離 , 如跨城市數據中心互連 , 他仍建議使用傳統可插拔光模塊 。
面對“按需付費”(pay-as-you-go)模式下可插拔光模塊更具成本彈性的質疑 , Gilad Shainer回應稱 , AI超級計算機通常以高利用率為目標 , 并采用高度優化的拓撲結構 , 客戶往往會一次性部署滿配基礎設施 。 在此場景下 , CPO不僅能降低資本開支(CAPEX)和運營支出(OPEX) , 還能提升系統可靠性 。
基于上述優勢 , Gilad Shainer認為 , 超大規模云服務商會積極采用CPO 。 對于下一代產品的演進方向 , 他表示 , 主要包括更大端口數交換機、更高光連接密度與數據吞吐量、新型光纖-交換機連接技術、更高密度全液冷機架等 。
【英偉達回應CPO“質疑”,將于今年規模部署】

    推薦閱讀