終極3D集成,將顛覆未來的GPU

終極3D集成,將顛覆未來的GPU

文章圖片

終極3D集成,將顛覆未來的GPU

當HBM疊上GPU , 散熱難題如何成為算力突破的 “攔路虎”?

打開AMD或英偉達最先進的AI產品封裝 , 你會發現一個熟悉的布局:GPU兩側是高帶寬內存(HBM) , 這是目前最先進的內存芯片 。 這些內存芯片盡可能靠近它們所服務的計算芯片 , 以減少AI計算中最大的瓶頸——將每秒數十億比特的數據從內存傳輸到邏輯電路所需的能量和延遲 。 但是 , 如果將HBM堆疊在GPU頂部 , 進一步拉近計算和內存的距離 , 又會怎樣呢?

圖中較大的黑色方塊是連接到AMD Instinct MI300X GPU 邏輯芯片的高帶寬內存[中心
。來源:AMD
Imec近期利用先進的熱模擬技術研究了這種情況 , 并在2025 年 12 月舉行的 IEEE 國際電子器件會議(IEDM) 上公布了結果 , 結果令人沮喪 。 3D堆疊會使GPU 內部的工作溫度翻倍 , 導致其無法正常工作 。 但由 Imec 的James Myers領導的團隊并沒有就此放棄 。 他們找到了一些工程優化方案 , 最終可以將溫差降低到幾乎為零 。
2.5D和3D先進封裝Imec 首先對一個 GPU 和四個 HBM 芯片進行了熱模擬 , 模擬的是目前常見的封裝形式 , 即所謂的 2.5D 封裝 。 也就是說 , GPU 和 HBM 都位于稱為中介層的基板上 , 彼此之間的距離非常小 。 這兩種芯片通過集成在中介層表面的數千個微米級銅互連線連接 。 在這種配置下 , 模型GPU 的功耗為 414 瓦 , 峰值溫度略低于 70°C——這是處理器的典型溫度 。 內存芯片的功耗約為40 瓦 , 溫度略低一些 。 熱量通過封裝頂部的液冷散熱 , 這種液冷方式在新型AI數據中心中已十分常見 。
“雖然目前仍在采用這種方法 , 但它未來的擴展性并不理想——尤其因為它會遮擋GPU的兩側 , 限制封裝內部GPU之間的連接 , ”Imec高級研究員陳宇凱在IEDM大會上告訴工程師們 。 相比之下 , “3D方案可以帶來更高的帶寬、更低的延遲……最重要的改進在于封裝尺寸 。 ”
不幸的是 , 正如陳和他的同事們發現的那樣 , 最直接的堆疊方式 , 即簡單地將HBM芯片放在 GPU 頂部 , 并在中心添加一塊空白硅來填補空隙 , 會導致 GPU 的溫度飆升至驚人的 140°C——遠遠超過典型 GPU 的 80°C 限制 。
系統技術協同優化Imec團隊著手嘗試一系列旨在降低溫度的技術和系統優化方案 。 他們首先嘗試的是去除一層多余的硅片 。 要理解其中的原因 , 首先必須了解HBM究竟是什么 。
這種內存由多達12 個高密度DRAM芯片堆疊而成 。 每個芯片都薄至幾十微米 , 并布滿了垂直連接 。 這些薄芯片彼此堆疊 , 并通過微小的焊球連接 , 而這堆內存又垂直連接到另一塊硅片 , 稱為基片 。 基片是一個邏輯芯片 , 用于對數據進行多路復用 , 并將數據壓縮到數量有限的導線中 , 這些導線能夠穿過毫米級的間隙連接到GPU 。
但由于HBM 現在位于 GPU 頂部 , 因此不再需要這樣的數據泵 。 數據位可以直接流入處理器 , 而無需考慮芯片側面有多少根導線 。 邁爾斯表示 , 當然 , 這一改變意味著要將內存控制電路從基礎芯片移到 GPU 中 , 從而改變處理器的布局 。 但他認為應該有足夠的空間 , 因為 GPU 不再需要用于解復用傳入內存數據的電路 。
去掉內存這個中間環節 , 溫度只降低了不到4 攝氏度 。 但重要的是 , 它應該能大幅提升內存和處理器之間的帶寬 , 這對于團隊嘗試的另一項優化——降低 GPU 速度——至關重要 。
【終極3D集成,將顛覆未來的GPU】這似乎與提升人工智能計算能力的初衷背道而馳 , 但在這種情況下 , 這反而成為一種優勢 。 大型語言模型屬于所謂的“內存密集型”問題 , 也就是說 , 內存帶寬是主要的限制因素 。 但邁爾斯團隊估計 , 在GPU上采用3D堆疊HBM技術可以將帶寬提升四倍 。 有了這額外的性能提升空間 , 即使將GPU時鐘頻率降低50% , 仍然能夠帶來性能提升 , 同時還能將溫度降低20攝氏度以上 。 實際上 , 處理器可能不需要降低這么多 。 邁爾斯表示 , 將時鐘頻率提高到70%只會使GPU溫度升高1.7攝氏度 。
優化的HBM溫度大幅下降的另一個原因是提高了HBM堆疊層及其周圍區域的導熱性 。 這包括將四個堆疊層合并成兩個更寬的堆疊層 , 從而消除一個散熱區域;減薄堆疊層頂部通常較厚的芯片;以及用空白硅片填充HBM周圍的更多空間以增強導熱性 。
經過上述所有措施 , 堆疊芯片的運行溫度約為88°C 。 最終的優化使溫度降至接近 70°C 。 通常 , 芯片約 95% 的熱量是從封裝頂部散發的 , 在本例中 , 頂部由水帶走熱量 。 但如果在底部也采用類似的冷卻方式 , 堆疊芯片的溫度最終會再降低 17°C 。
Myers表示 , 盡管在IEDM上展示的研究表明 , GPU搭載HBM內存或許可行 , 但這未必是最佳選擇 。 “我們正在模擬其他系統配置 , 以幫助我們確定這是否是最佳方案 , ”他說道 。 “GPU搭載HBM內存引起了一些業內人士的興趣 , ”因為他認為這種方式能讓GPU更靠近散熱系統 。 但這很可能是一個更復雜的設計 , 因為GPU的電力和數據必須垂直流經HBM才能到達GPU 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀