性能暴增16倍,谷歌透露下代Ironwood TPU架構

性能暴增16倍,谷歌透露下代Ironwood TPU架構

文章圖片

性能暴增16倍,谷歌透露下代Ironwood TPU架構

文章圖片

性能暴增16倍,谷歌透露下代Ironwood TPU架構

單個Ironwood Superpod集成9216枚芯片 , 每片配備192GB、帶寬7.4TB/s的高帶寬存儲 。
近日 , 谷歌詳細披露第七代TPU架構“Ironwood”超級計算平臺 。 谷歌第七代TPU架構Ironwood于今年官宣 , 當時谷歌稱其性能是當前最強大超級計算機的24倍 。 不過 , 此次披露的信息主要聚焦在單個Superpod的硬件構成與架構設計 。

據介紹 , 單個Ironwood Superpod集成9216枚芯片 , 每片配備192GB、帶寬7.4TB/s的高帶寬存儲 , 峰值算力高達 4614TFLOPs 。 相較之下 , 2022年發布的TPU v4集成4096枚芯片、配備32GB HBM , 峰值算力275 TFLOPs , 而2023年發布的TPU v5p集成8960枚芯片 , 配備95GB HBM , 峰值算力459 TFLOPs , 這意味著Ironwood Superpod單芯片性能較TPU v4提升超過16倍 。

其中 , 每四顆芯片組成一塊PCBA主板 , 16塊主板構成一個機架 , 共64芯片節點 , 谷歌采用 InterChip Interconnect(ICI)技術 , 將多達43個64芯片模塊互連 , 構建出擁有1.8PB/s網絡帶寬的集群 。
在物理布局上 , Ironwood沿用過去三代的3D Torus(立方環網)拓撲 , 每個邏輯單元為4×4×4節點陣列 , 即64芯片 , 封裝于單個機架 。 而一個Superpod包含144個機架 , 還配備光學交換機機箱以實現跨模塊互連 , 以及用于液冷的冷卻分配單元(CBU)機架 , 互連方面為提高靈活性與可擴展性 , 采用PCB走線、銅纜和光纖的混合方式 。

在機架設計上 , 頂部設有泄漏檢測盤以監控液冷系統 , 下方是供電模塊 , 具備兩路電源域 , 將416V交流電經整流轉換為直流電 。 整套系統支持液冷散熱 , 滿載運行功率可超過100kW 。
Ironwood的關鍵特性根據今年4月谷歌披露的信息 , Ironwood依據AI工作負載的需求提供兩種規格 , 分別為256 芯片配置和9216 芯片配置 。 Ironwood能提供大規模并行處理能力 , 足以支撐最復雜的AI工作負載 , 例如具備思維能力的超大規模密集型大型語言模型或混合專家模型(涵蓋訓練與推理場景) 。
Ironwood 還搭載了增強型SparseCore(稀疏計算核心) , 這是一種專用加速器 , 專門用于處理高級排序與推薦類工作負載中常見的超大規模嵌入向量 。 Ironwood對SparseCore的支持范圍進一步拓展 , 不僅能加速更多類型的工作負載 , 還能突破傳統AI領域的限制 , 應用于金融與科學計算等領域 。
Pathways是由Google DeepMind開發的機器學習運行時(ML runtime) , 能夠支持跨多顆TPU芯片的高效分布式計算 。 Pathways可將數十萬顆Ironwood芯片整合協作 , 助力生成式AI實現快速突破 。

Ironwood關鍵特性包括以下:

  • 性能與能效雙優 , 降低AI成本:Ironwood在實現顯著性能提升的同時 , 亦聚焦能效優化 , 助力 AI 工作負載以更具成本效益的方式運行 。 具體而言:能效比躍升 , 相較于去年發布的第六代 TPU(代號 Trillium) , Ironwood 的能效比提升了1倍;散熱與持續性能保障 , 憑借先進的液冷解決方案與優化的芯片設計 , 即便在持續高負載的 AI 運算場景下 , Ironwood 仍能穩定輸出高達標準風冷方案2倍的性能;長期能效迭代 , 與 2018 年推出的首款 Cloud TPU 相比 , Ironwood 的能效提升了近 30 倍 。
  • HBM容量大幅提升:Ironwood 單芯片配備 192GB 高帶寬內存(HBM) , 容量是 Trillium 的 6 倍 。 這一提升帶來兩大核心價值 , 一是支持更大規模的模型訓練與數據集處理 , 無需頻繁拆分任務;二是減少數據在內存與計算單元間的遷移頻率 , 直接提升整體運行效率 。
  • HBM帶寬顯著優化:Ironwood 單芯片的 HBM 帶寬達到 7.37TB/s , 是 Trillium 的 4.5 倍 。 對于現代 AI 中普遍存在的 “內存密集型工作負載”而言 , 高速數據訪問能力是保障任務流暢運行的關鍵 , 這一提升可有效避免因內存帶寬不足導致的算力閑置 。
  • 芯片間互連帶寬進一步增強:Ironwood 的芯片間互連(ICI)雙向帶寬提升至 1.2TBps , 為 Trillium 的 1.5 倍 。 更快的芯片間通信速度帶來兩大優勢 , 一是加速分布式訓練進程 , 多芯片協同工作時 , 數據交互延遲更低;二是保障大規模推理效率 , 在超大規模 TPU Pod 部署場景下 , 可實現更高效的跨芯片任務調度 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
【性能暴增16倍,谷歌透露下代Ironwood TPU架構】想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀