思科新路由器將分散數據中心整合為AI訓練集群

思科新路由器將分散數據中心整合為AI訓練集群

思科發布了一款新的路由ASIC芯片 , 旨在幫助數據中心運營商通過將現有數據中心連接成統一計算集群來克服電力和容量限制 。
思科8223路由器突破性能新高
周三發布的思科8223是一款51.2 Tbps路由器 , 采用自研的Silicon One P200 ASIC芯片 。 結合800 Gbps相干光學技術 , 思科表示該平臺可支持長達1000公里的連接距離 。 通過連接足夠數量的路由器 , 思科稱該架構理論上可實現每秒3艾比特的總帶寬 , 足以連接目前最大的AI訓練集群 。
事實上 , 這樣的網絡能夠支持包含數百萬GPU的多站點部署 , 不過要達到這種帶寬水平需要數千臺路由器協同工作 , 成本不菲 。 對于不需要如此高速連接的客戶 , 思科表示路由器可通過較小的雙層網絡支持高達13 Pbps的帶寬 。
云服務商積極評估新技術
這種高速跨數據中心網絡的概念已經吸引了多家大型云服務提供商的關注 , 包括微軟和阿里巴巴 , 思科透露他們正在評估這些芯片的潛在部署 。
阿里云網絡基礎設施負責人Dennis Cai在聲明中表示:\"這種新的路由芯片將使我們能夠擴展到核心網絡 , 用P200驅動的設備集群取代傳統的機箱式路由器 。 這一轉變將顯著提升我們DCI網絡的穩定性、可靠性和可擴展性 。 \"
行業競爭日趨激烈
思科只是跳上分布式數據中心潮流的最新網絡設備供應商 。 今年早些時候 , 英偉達和博通也發布了各自的跨規模網絡ASIC芯片 。
【思科新路由器將分散數據中心整合為AI訓練集群】與P200類似 , 博通的Jericho4是一款51.2 Tbps交換機 , 主要設計用于高速數據中心間網絡結構 。 博通表示該芯片可以100 Pbps以上的速度連接相距100公里的數據中心 。
英偉達也加入了這場競爭 , 在今年夏天的Hot Chips大會上展示了Spectrum-XGS交換機 。 雖然硬件細節仍然有限 , 但GPU數據中心運營商CoreWeave已承諾使用該技術將其數據中心連接成\"單一統一超級計算機\" 。
技術挑戰仍需克服
雖然這些交換和路由ASIC芯片可能幫助數據中心運營商克服電力和容量限制 , 但延遲仍然是一個持續挑戰 。
我們通常認為光速是瞬時的 , 但實際上并沒有那么快 。 在相距1000公里的兩個數據中心之間發送的數據包單程大約需要5毫秒才能到達目的地 , 這還沒有考慮收發器、放大器和中繼器等設備帶來的額外延遲 。
不過 , 谷歌DeepMind團隊今年早些時候發布的研究顯示 , 通過在訓練期間壓縮模型并戰略性地調度兩個數據中心之間的通信 , 可以克服許多這些挑戰 。
Q&A
Q1:思科8223路由器有什么特殊能力?
A:思科8223是一款51.2 Tbps路由器 , 采用自研Silicon One P200 ASIC芯片 , 結合800 Gbps相干光學技術 , 可支持長達1000公里的連接距離 , 能夠將分散的數據中心整合成統一的AI訓練集群 。
Q2:跨數據中心網絡連接面臨什么技術挑戰?
A:主要挑戰是延遲問題 。 相距1000公里的數據中心間數據傳輸單程約需5毫秒 , 加上收發器、放大器等設備的額外延遲 。 不過谷歌研究顯示可通過模型壓縮和通信調度來緩解這些問題 。
Q3:除了思科還有哪些公司在開發類似技術?
A:英偉達和博通也在開發跨規模網絡ASIC芯片 。 博通的Jericho4可連接相距100公里的數據中心 , 英偉達展示了Spectrum-XGS交換機 , CoreWeave已承諾使用該技術連接數據中心 。


    推薦閱讀