AMD新專利,解決多芯粒GPU延遲

【AMD新專利,解決多芯粒GPU延遲】AMD新專利,解決多芯粒GPU延遲

文章圖片


本文由半導體產業縱橫(ID:ICVIEWS)綜合
AMD公司已探索“智能交換器”優化數據處理 , 從而解決多芯粒GPU的延遲問題 。
據報道 , 基于最新獲批的專利 , AMD公司已探索“智能交換器”優化數據處理 , 從而解決多芯粒GPU的延遲問題 。 有消息稱在消費級GPU領域 , AMD預計將采用多芯粒模塊設計 。
多芯粒模塊設計 , 即將多個芯片集成到一個封裝中 , 之前已在高性能計算領域得到應用 , 而AMD計劃將其擴展到游戲GPU , 以應對單芯片設計在制造和性能上的瓶頸 。
此前 , AMD在這方面積累了豐富的經驗 , 例如其Instinct系列加速器已采用多芯片設計 。 Instinct MI200使用多個圖形計算芯片與高帶寬內存堆疊 , 實現了高效的數據傳輸 。 后續的Instinct MI350系列進一步優化了這一結構 , 搭載288GB HBM3E內存 , 內存帶寬達8TB/s , 基于3nm工藝節點 , 總晶體管數達1850億 。 該系列通過10個芯片模塊的2D混合鍵合 , 提升了AI任務的處理能力 , 為消費級產品提供了技術基礎 。
具體到游戲領域 , GPU若要采用多芯粒模塊設計 , 那么最大的問題就是延遲較高 , 因為幀渲染對長距離數據傳輸的延遲非常敏感 。 若要解決這一問題 , AMD就必須想出一種能盡可能縮小數據與計算之間差距的方案 。
根據披露的一項新專利申請 , AMD 或許已經破解了多芯粒模塊設計游戲GPU的設計之道 。 不過 , 該專利視頻中披露的是CPU相關細節 , 而非GPU , 但文本內容和機制表明其目標是圖形應用場景 。

那么 , AMD 究竟將如何在GPU中運用多芯粒模塊設計呢?據悉 , 該專利的核心是一種 “帶有智能交換機的數據架構電路” , 它能連接計算小芯片與內存控制器之間的通信 。 這本質上是AMD Infinity Fabric , 但為消費級GPU進行了縮減 , 因為AMD無法采用HBM內存芯片 。 該交換機旨在優化內存訪問 , 其工作原理是先判斷圖形任務請求是否需要任務遷移或數據復制 , 決策延遲達到納秒級 。
解決了數據訪問問題后 , 該專利還指出要讓圖形計算核心(GCD)配備L1和L2緩存 , 這與AI加速器的設計類似 。 不過 , 通過交換機還能訪問額外的共享L3緩存(或堆疊式SRAM) , 該緩存將連接所有GCD 。 這不僅減少了對全局內存的訪問依賴 , 同時能夠充當小芯片之間的共享過渡區 , 類似于AMD 3D V-Cache技術 , 只不過3D V-Cache主要用于處理器 。 此外 , 該專利還涉及堆疊式DRAM , 這本質上是多芯粒模塊設計的基礎 。
這一專利的出現表明 , AMD已為多芯片GPU生態做好準備 。 AMD可以使用臺積電的InFO-RDL橋接技術 , 以及在小芯片之間使用特定版本的Infinity Fabric進行封裝 。 更具吸引力的是 , 這種實現方式是AI加速器的縮減版本 。 此前 , AMD計劃將其游戲和AI架構合并為一個統一架構 , 即UDNA架構 。 AMD還整合了軟件生態系統 , 這樣可以攤薄驅動程序和編譯器的開發工作 。
由于單芯片設計存在局限性 , 這或許是AMD超越競爭對手的絕佳機會 。 然而 , 芯粒設計也存在復雜性 , AMD此前在RDNA 3上就曾遇到過小芯片互連帶來的延遲 。 AMD RDNA 3架構Navi 31 GPU已部分采用多芯片設計 , 配備六個內存控制器芯片 , 總Infinity Cache達96MB , 內存總線寬384位 , 支持高達24GB GDDR6內存 。 通過Infinity Fabric互聯 , 峰值帶寬達5.2TB/s 。 該設計在RX 7900系列中實現 , 每瓦性能較前代提升50% , 但也暴露了芯片間延遲的缺陷 。
然而憑借創新的交換機方案 , 再加上額外的共享L3緩存 , AMD有望解決延遲問題 。 不過 , 具體效果如何 , 可能要到UDNA 5才能見分曉 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀