CPO現狀:從質疑到戰略應用還有多遠?

CPO現狀:從質疑到戰略應用還有多遠?

文章圖片


C114訊 3月17日消息(水易)近日 , Lightwave刊登由CIR的Lawrence Gasman撰寫的《CPO與數據中心:從質疑到戰略應用》一文 , 系統梳理了CPO的應用現狀 。
以下為編譯內容:
CPO已成為數據中心領域最受熱議的技術之一 。 供應商和標準組織正積極將CPO定位為解決AI所面臨的帶寬、延遲和功耗危機的終極方案 。 然而 , 許多用戶仍處于困惑之中:他們不確定自己是否真的需要CPO;這項技術是否已經足夠成熟;以及部署CPO是否會帶來更多運維風險 , 而非性能收益 。 CIR最近完成了一項研究 , 探討在當前技術前景與用戶懷疑并存的背景下 , CPO的發展潛力 。
在OFC、ECOC , 以及在GTC大會上 , CPO的演示令人印象深刻 。 但如果你走進當今大多數數據中心 , 除少數超大規模設施外 , 幾乎看不到CPO的實際部署 。 如果你與數據中心管理者交談 , 會發現他們普遍謹慎和懷疑的態度 , 或許整個行業正在悄然為一場可能需要十年才能全面展開的技術做準備 。
然而 , CPO不僅是一個技術故事 , 更關乎用戶心理、風險容忍度、數據中心文化 , 以及基礎設施采購方與其供應商之間關系的深刻變化 。
CPO為何重回聚光燈下?
CPO并非新技術 。 將光子器件與電子器件緊密封裝在一起的概念可追溯至多年前 , 例如在超級互連方面的早期工作 , 以及Flyover互連概念 。 真正改變的是AI作為現代數據中心核心工作負載的崛起 。 在AI熱潮之前 , CPO被定位為一種廣泛適用的創新 , 可用于、電信、高性能計算和數據中心互連 。 這種“廣撒網”式的定位雖曾引發早期熱情 , 卻未能持續激發市場需求 。
而AI驅動的需求則更為聚焦 。 CPO如今被明確視為解決AI數據中心中具體且真實問題的方案:隨著行業向112G和224G SerDes演進 , 以及交換逼近51.2T乃至更高 , 電互連正變得損耗過大、功耗過高 。 在此背景下 , CPO的價值主張變得清晰易懂:通過縮短電路徑并將光接口移近ASIC , CPO有望實現更高的能效、更高的帶寬密度 , 并為未來超高端口數(從51.2T邁向204.8T)鋪平道路 。 下表總結了業界共識 , 即CPO最能彰顯其優勢的應用場景 。

來源;CIR
這聽起來似乎好得難以置信 , 但事實或許的確如此 。 潛在CPO用戶的不信任 , 源于CPO初期比可插拔方案更復雜 , 且傳統數據中心設備的前面板設計比CPO方案更簡單、更易于維護 。 幾十年前的管理者恐怕難以相信 , “可插拔性”竟會如此輕易地被舍棄 。 不過 , 若指出可插拔性的消失也可能減少現場故障 , 或許能重建一些信心 。 此外 , 盡管各方都在談論資本開支(CAPEX)節省 , 但早期CPO交換機的成本可能高于傳統可插拔交換機 。
潛在CPO用戶:超大規模企業的視角
在數據中心中 , 對CPO的態度呈現出“著迷”與“不信任”的兩極分化 。 運營商承認CPO在技術上頗具吸引力 , 但也擔心它可能演變為運維噩夢 。 CIR的研究表明 , 即使在傳統數據中心市?。 捶淺蠊婺#?, 對CPO的認知仍然有限 。 在超大規模環境之外 , 普通數據中心管理者可能對CPO知之甚少 。 就連成熟的可插拔光模塊供應商也大多如此 。
從工程角度來看 , 當長期目標是擴展到102.4T ASIC時 , CPO似乎最為重要 。 屆時 , 功耗將成為瓶頸 , 且可能需要“極端”端口密度 。 這使得CPO本質上成為一項超大規模技術 。 事實上 , 、Meta、谷歌和亞馬遜等公司已在內部開展CPO試驗 。 這并非為試驗而試驗 , 他們在尋找任何能在未來幫助他們擺脫更高功耗預算的方法 。 超大規模企業將CPO視為更廣泛架構變革的一部分:Photonic fabrics、更高密度機架 , 以及將人工智能集群和機架擴展到銅纜所能支持的范圍之外的可能性 。
從這個意義上說 , 超大規模企業并不將CPO視為孤立的技術升級 , 而是下一代AI基礎設施的關鍵使能要素 。 此外 , 與企業級數據中心、中小型云服務商及邊緣數據中心不同 , 超大規模企業已習慣于非傳統的供應鏈 。 它們愿意接受供應商鎖定 , 只要性能提升足夠顯著 。 它們擁有議價能力、能夠圍繞供應商短板進行自主設計的工程團隊 , 甚至常常能要求定制化解決方案 。 對它們而言 , 問題不是“我們是否應該部署CPO?” , 而是“我們能多快將其工程化?”
企業和托管運營商:“給我看可靠性”
CIR指出 , 目前在超大規模環境之外 , 幾乎沒有證據表明當前有CPO部署 , 盡管行業媒體偶爾提及小型用戶 。 即便存在少量小規模部署 , 也尚未形成足夠可見或有影響力的案例 。 企業、托管運營商及其他中小型運營商的文化與超大規模企業截然不同 。
它們并不構建大型專有平臺 , 也很少有工程人員來運行復雜的光集成項目 。 它們對CPO的態度由另一套優先事項塑造:互操作性、多供應商供應鏈和現場可維護性 。 超大規模廠商可能會早早入場 , 而市場其他部分則等待\"驗證\"、標準化接口和成熟的生態系統 。 實際上 , 超大規模企業可能充當行業的“試驗場” , 而企業和其他小型運營商將成為最終的規?;袌?。
“過渡技術”心理:LPO與NPO成為舒適區
與此同時 , 塑造用戶態度的最重要趨勢之一是“過渡性”解決方案的興起 。 CIR強調 , 持謹慎態度的潛在CPO用戶不會直接從可插拔方案跳到CPO 。 相反 , 他們會采用中間架構 , 如近NPO和LPO 。 這些技術在不過度犧牲模塊化的前提下 , 提供了降低功耗和改善信號完整性的部分優勢 。
運營商之所以逐步推進 , 是因為他們對早期CPO的制造良率、維修/維護模式缺乏信任 。 NPO和LPO允許他們在不徹底重寫運維手冊的情況下 , 嘗試更短的電走線、降低開銷 , 并采用新興的電接口標準 。
LPO對關注功耗和延遲的運營商極具吸引力 , 通過移除DSP , LPO承諾降低功耗和延遲 , 這對人工智能很有價值 。 但它也引入了限制:更短的傳輸距離、更嚴格的主機要求以及更緊張的信號預算 。 NPO則在不完全共封裝的前提下提供鄰近優勢 , 降低了熱管理和制造復雜性的風險 。
這些過渡技術之所以重要 , 是因為它們將決定CPO的部署節奏 。 CPO或許是“終極目標” , 但對企業運營商而言 , CPO被視為“下一個十年的技術” 。 許多人認為 , 即使CPO為終極方案 , 中間步驟也可以在不承擔完全共封裝風險的情況下提供益處 。
熱管理現實與可插拔性的回歸
CPO部署中最常被提及的技術障礙是熱管理 。 溫度不穩定會導致波長漂移、加速老化和性能退化 。 將光器件靠近ASIC這一行為本身就帶來了與熱相關的風險 。 光器件 , 尤其是和光子集成電路(PIC)對溫度有嚴格要求 。 CIR的CPO報告指出 , 熱管理是當前阻礙CPO部署的最大因素之一 。
然而 , CPO激光器最有趣之處并非其自帶的熱挑戰 , 而是它可能通過“后門”重新引入可插拔性 。 目前 , OIF推動的外置光源(ELSFP)代表了完全CPO集成與傳統模塊化光學之間的折中方案 。 邏輯很簡單:激光器會失效、會退化 , 最好放置在較冷的區域 。 外部源允許在無需干擾交換機ASIC封裝的情況下進行更換 , 從某種意義上說 , 這是可插拔性的回歸 。
從用戶心理角度看 , ELSFP之所以吸引人 , 是因為它緩解了CPO討論中揮之不去的“維護焦慮” 。 然而 , 外置激光器方案也帶來新風險 , 例如插入損耗 , 以及單個激光器故障可能影響多個通道的可用性 。 ELSFP和外部激光架構很可能在推動CPO普及過程中發揮關鍵作用 。
供應商影響力:與英偉達塑造觀念
用戶對CPO的態度也受到其倡導者可信度的影響 。 值得注意的是 , 博通和英偉達已成為推動CPO敘事的最具影響力的供應商 。 博通早期通過其Bailly平臺確立了交換ASIC集成的參考點 。 而英偉達則通過將CPO集成到Spectrum-X和Quantum-X平臺并在公開場合展示 , 將CPO帶入主流AI對話 。
英偉達的做法尤其值得關注 , 因為它反映出對運營商關切的深刻理解 。 其架構包含可拆卸的光學子組件 , 暗示了一種部分模塊化模型 。 實際上 , 英偉達似乎在設計CPO系統時就考慮了可制造性和可更換性 , 承認若完全共封裝而無可維護性 , 將難以被市場接受 。
供應商戰略之所以重要 , 是因為用戶在確信存在\"安全供應商路徑\"之前 , 通常不會采用新的基礎設施技術 。 在網絡領域 , 信任往往是品牌驅動的 , 如果用戶相信供應商能通過工程支持和長期產品穩定性來吸收風險 , 他們就更愿意承擔風險 。 因此 , 博通和英偉達不僅是供應商 , 更是CPO的“信心引擎” 。
供應鏈焦慮:“這會不會又是一個鎖定陷阱?”
話雖如此 , CPO改變了采購模式 , 這讓運營商感到不安 。
使用可插拔模塊時 , 運營商可從多家供應商采購 , 并將其視為可互換的商品 。 CPO威脅到了這一模式 。 如果光模塊被集成到交換機封裝中 , 運營商將依賴交換機廠商的封裝生態系統和更換策略 。 客戶可能無法購買通用的模塊 , 而是需要從單一供應商或合作伙伴那里采購集成的CPO系統 。
另一個問題是 , CPO可能導致光器件故障時需要更換整塊板卡、線路卡 , 甚至整個交換機組件 。 這絕非數據中心管理者愿意聽到的事實 。 CPO違背了運維團隊的直覺 , 許多人會將其解讀為“偽裝成創新的供應商鎖定” 。
正因如此 , OIF和Advanced Photonics Coalition等組織推動的互操作性工作至關重要 。 用戶不僅關注性能 , 更關注生態系統成熟度和多供應商可信度 。
“三步走”推動CPO規模部署
隨著運營商在設備、供應鏈、線纜管理和散熱等方面建立信心 , CPO市場規模將逐步增長 。 與所有此類技術一樣 , 若CPO成功 , 其增長將是非線性的 。

來源:CIR
第一階段:從懷疑到接受(2026–2028年) 。 CPO在這一階段不是主流網絡技術 , AI網絡架構的持續擴展將迫使業界更認真地評估CPO 。 限制因素將是激光器、封裝良率、散熱設計和測試等未解決問題 。
第二階段:從接受到依賴(2029–2032年) 。 隨著AI集群向100T級擴展 , CPO將成為迄今為止唯一可行的技術 。 用戶態度可能從“我們正在評估”轉變為“沒有它就無法擴展” 。
第三階段:從依賴到優化(2032–2035年) 。 一旦CPO成為主流 , 討論焦點將轉向“哪家廠商的CPO架構更好” 。 這將是非超大規模運營商開始大規模部署CPO的時期 。
當前 , 業界對CPO市場的預測對某些人來說可能過于樂觀 。 懷疑者會想起那些早已銷聲匿跡的網絡技術 , 比如 。 CIR認為 , 一個關鍵變量是AI本身的演變 。 如果小型語言模型興起 , 對高速互連的需求可能下降 , CPO或將淪為小眾技術 。 如果AI工作負載變得分布式或對帶寬需求降低 , CPO的緊迫性也會減弱 。
另一個變數是機架內銅纜的持續演進 。 英偉達在NVLink中繼續使用銅纜 , 印證了行業長期以來的模式:只有當銅纜失效時 , 才會被采用 。 CIR指出 , 光纖全面接管機架并非必然 。 光纖將滲透機架 , 但沒人能確定其速度和深度 。
結語:CPO是一場文化變革
CPO的成功不僅取決于帶寬密度和每比特功耗等指標 , 更取決于運營商是否信任它 。 目前 , 用戶既感興趣又持懷疑態度 。 超大規模企業正向前推進 , 因為其中一些企業懷疑 , 即使CPO會顛覆定義了數十年的服務模式 , 它也將是擴展人工絡架構的唯一長期戰略 。
【CPO現狀:從質疑到戰略應用還有多遠?】在未來十年 , 運營商的態度將從“這看起來風險很大”轉變為“這就是現代AI網絡的運作方式” 。 當這一轉變發生時 , CPO將不再被討論為一種技術 , 而會被視為基礎設施的必然歸宿 。

    推薦閱讀