人工智能的最佳DRAM

人工智能的最佳DRAM

文章圖片

人工智能的最佳DRAM

DRAM 的選擇取決于操作的位置 。
人工智能 (AI) 涉及高強度計算和海量數據 。 計算可以由 CPU、GPU 或專用加速器執行 , 而數據在傳輸到處理器的過程中會經過 DRAM , 因此 , 最適合此用途的 DRAM 類型取決于執行訓練或推理的系統類型 。
如今 , 工程團隊面臨的內存挑戰是如何滿足人工智能快速增長的計算需求 , 而同步 DRAM 在其中發揮著至關重要的作用 。 所有這些數據都需要處理、存儲和訪問 , 這些步驟中的任何不匹配都可能影響整體系統性能 。
Cadence產品營銷部總監 Frank Ferro 表示:“我們獲得了所有這些計算能力 。 但從內存帶寬的角度來看 , 如何利用它呢?”
沒有簡單的答案 , 也沒有一刀切的解決方案 。 目前 , 同步 DRAM (SDRAM) 分為四類 , 每類都有各自的目標用途和優缺點:
1. 雙倍數據速率(DDR )內存通常與 CPU(尤其是復雜指令集架構 (CISC) 處理器)搭配使用 。 程序可能包含復雜的分支和各種各樣的操作 , 而 DDR 針對此類計算進行了優化 。 DDR 是最通用的架構 , 具有最快的延遲(第一個數據的時間) , 并且由于采用 64 位數據總線而具有適中的帶寬 。 “雙倍數據速率”指的是數據在時鐘的上升沿和下降沿同時進出內存 。 這與之前的內存和大多數邏輯電路不同 , 它們僅在一個邊沿進行時鐘控制 。
2. 低功耗 DDR ( LPDDR )與 DDR 類似 , 但它包含許多在后續版本中逐步添加的功能 , 以便在保持高性能的同時降低功耗 。 其節能特性包括:

  • 降低電源電壓;
  • 溫度補償刷新率 , 允許在寒冷時減少刷新頻率;
  • 深度和部分斷電模式;
  • 部分陣列刷新選項;
  • 寫入均衡 , 補償數據選通和時鐘信號之間的偏差;
  • 命令/地址訓練以優化信號時序和完整性;
  • 更低的I/O電容;
  • 后續幾代采用 6 位單數據速率 (SDR) 命令和地址總線 , 而不是之前的 10 位 DDR 總線;
  • 兩條半寬總線 , 而不是一條全寬總線;
  • 差分時鐘;
  • 數據復制和 Write-X(寫入全部 1 或全部 0)命令 , 以減少這些用例的數據傳輸 , 以及差分電壓和頻率調節 (DVFS) 。
后續幾代產品包含更復雜的時鐘結構 , 其中有一個四分之一速度的主時鐘持續運行 , 從中衍生出多個僅在必要時運行的全速時鐘 。
LPDDR 并非內置于雙列直插式內存模塊 (DIMM) 中 , 而是采用 BGA 封裝 , 直接焊接到電路板上 。
圖形 DDR (GDDR(Double Memory , 即GDDR )是一種配合GPU進行圖形處理的變體 。 它擁有比DDR更高的帶寬 , 可以向處理器傳輸大量圖形數據 , 但延遲也比DDR更高 。 “GDDR的帶寬要好得多 , 但容量是個問題 , ”Ferro說道 。
高帶寬內存( HBM )涉及具有非常寬總線的 DRAM 芯片堆棧 , 可以提供必要的非常高的帶寬 , 以防止內存訪問成為數據密集型計算(例如 AI 訓練、AI 推理和高性能計算 (HPC))的瓶頸 。
這四種 DRAM 類型的主要區別在于訪問協議 , 而不是存儲單元 。 “無論你使用的是 GDDR、LPDDR、DDR 還是 HBM , 底層的內存技術基本上都是相同的 , ”Ferro 指出 。 “你仍然擁有基本的 DRAM 技術 。 關鍵在于你如何訪問 DRAM 。 ”
這些不同的訪問方式會對性能和功耗產生很大的影響 。

圖 1:不同 SDRAM 系列的比較 。 容量以單芯片計算(HBM 不以單堆棧計算) 。 沒有哪個系列在各方面都表現出色 。 DDR 和 LPDDR 的吞吐量和容量可以相媲美 , 但成本是主要區別 。 資料來源:Bryon Moyer/Semiconductor Engineering
數據中心之王數據中心是 HBM 無可爭議的領地 。 Expedera 首席軟件工程師 Ramteja Tadishetti 表示:“我們認為 HBM 仍將主要應用于數據中心的訓練和超高速接口 。 但HBM 的價格可能會使其局限于云端 , 遠離注重成本的邊緣設備 。 ”
HBM 能耗更高 , 價格也更高 , 但數據中心的其他設備也一樣 。 Quadric 首席營銷官 Steve Roddy 表示:“雖然 HBM 是本地內存中最昂貴、最耗電的選擇 , 但與訓練芯片中使用的全光罩尺寸裸片的成本和功耗相比 , 它的成本和功耗只是九牛一毛 。”用房地產來打個比方 , 如果你在比佛利山莊花2500萬美元買了一塊地 , 你就不會為了省錢而建造這棟房子 。 數據中心也是如此 。 一旦你選擇了昂貴的芯片和封裝 , HBM的增量就變得無關緊要了 。 由此推論 , 我們還沒有看到HBM在數據中心之外的任何應用計劃——即使是高端汽車市場也沒有 。 打造高端SAE Level 4自動駕駛輔助系統(ADAS)的汽車公司需要采用風冷且成本低于四位數的硅片解決方案 。 他們無法容納成本高達1萬美元或更高的1000瓦模塊 。
這些成本考量將迫使那些無力承擔HBM成本的廠商做出妥協 。 “超大規模廠商通常擁有足夠的資金和資源來支持HBM , ”新思科技內存接口產品線總監Brett Murdock解釋道 。 “二線廠商必須開始做出權衡 , 因為他們的產量不足以吸引HBM供應商或2.5D組裝商的關注 , 從而無法支持HBM解決方案 。 ”
HBM 對于訓練尤為重要 , 因為訓練需要的帶寬比推理更高 。 它仍然用于數據中心推理 , 但 LPDDR 和 GDDR 也正在獲得越來越多的關注 。 “HBM 已成為近內存使用的一種流行選擇 , 可用于訓練這些模型 , ”Ferro 說 。 “我猜測 GDDR 和 LPDDR 將成為推理加速器卡上的主流內存 。 ”
Murdock 對此表示贊同 , 并指出兩者之間應該采取更多混合方案 。 “訓練比推理需要更多內存 , 所以人們可能更傾向于 HBM4 和 LPDDR6 的組合 , 其中 LPDDR6 是為了滿足容量需求——除非你已經因為其他原因從 HBM4 降級到 LPDDR6 。 ”
三星也見證了類似的趨勢 。 “我們看到越來越多的混合內存 , ”三星 IP 和生態系統營銷高級總監 Kevin Yee 表示 。 “不僅僅是 DDR、LPDDR、GDDR 或 HBM 。 我們開始看到為了節省功耗而混合使用 , 比如 DDR 和 LPDDR , 或者 HBM 和 LPDDR 。 ”
一個新興的切入點是定制HBM , 大批量采購商可以與內存制造商合作 , 將堆棧底部的標準邏輯基礎芯片替換為具有專有增值功能甚至優化通道的定制芯片 。 Yee指出:“采用定制HBM , 可以使用某種專有的芯片間協議 , 這將帶來更好的帶寬和更高的傳輸效率 。 ”
雖然所有存儲器都需要考慮散熱問題 , 但對于HBM來說尤其如此 , 因為它是一個堆疊結構 , 而任何堆疊結構都會帶來散熱挑戰 , 尤其是堆疊中間的芯片 。 多物理場仿真是必要的 , 但這需要更精確的模型 。 “表征這種三維堆疊結構的熱行為面臨諸多挑戰 , ”弗勞恩霍夫IIS自適應系統工程部設計方法部門負責人Roland Jancke說道 。 “對于存儲器堆疊來說 , 這顯然是事實 , 但如果堆疊結構包含處理器、存儲器、傳感器或其他組件 , 則同樣如此 。 ”
最后 , 還有地緣政治因素 。 “除了可用性和成本之外 , 另一個考慮因素是政治因素 。 如果用非常寬泛的眼光來看 , HBM 基本上對中國來說是禁區 , ”Murdock 指出 。 “因此 , 中國公司目前在 AI 設計中使用 LPDDR5X , 而未來則將轉向 LPDDR6 。 ”
CPU 的固定伴侶DDR 在數據中心中發揮著作用 , 但它通常服務于協調操作的 CPU 。 加速器 , 無論是 GPU 還是神經處理單元 (NPU) , 通常都依賴于數據中心的 HBM 和/或 LPDDR 來實現更高的帶寬或更低的功耗 。

圖 2:CPU 與 G/NPU 所采用的內存對比 。 DDR 擅長執行 CPU 通常執行的通用順序計算 , 而 HBM 和 LPDDR 則為涉及高度并行性的訓練和推理算法所需的海量數據提供了更高的帶寬或更低的功耗 。 GDDR 也可能出現在那里 。 來源:Bryon Moyer/半導體工程
Murdock 表示:“通常情況下 , 服務器和 DDR 是密不可分的 。 如今 , DDR5 RDIMM 是黃金標準 , 但有些服務器正在轉向 DDR5 MRDIMM(多路復用 RDIMM , 通過對兩個 RDIMM 進行乒乓操作使帶寬翻倍) , 因為它們可以利用現有的 DRAM 提供更高的性能 。 DDR5 MRDIMM 在價格和功耗方面都比較昂貴 。 ”
但 DDR 并未針對處理 AI 數據模式進行優化 。 Expedera 的 Tadishetti 表示:“DDR 仍然是一種可靠的二級存儲方法 。 然而 , 除非延遲和性能有顯著改善 , 否則它在效率方面無法與 LPPDR 競爭 , 在原始性能方面也無法與 GDDR/HBM 競爭 。 ”
話雖如此 , 它無處不在 , 而且價格低廉 。 “對于不受功耗限制的大規模推理優化設備 , DDR 是首選的本地內存 , ”Roddy 說道 。 “對于任何線路供電(家庭、辦公室、工廠)或自帶電源(汽車)的設備 , DDR 的速度和成本組合都是不敗的王者 。 在智能管理外部內存的 NPU 子系統上運行的推理應用程序能夠批量處理和預取 DDR 訪問 , 從而最大限度地提高性能 , 同時充分利用 DDR 可用性帶來的巨大規模經濟效益 。 ”
舞會上的新花魁不過 , LPDDR 已開始滲透到各種系統中 , 如果它不能取代其他替代品 , 它可能會被添加到系統中以降低功耗 。
Roddy 表示:“對于電池和功耗受限的設備 , LPDDR 提供了卓越的帶寬與功耗平衡 。 手機市場對 LPDDR 的大量生產 , 使其成為大多數以 AI 為中心的新興消費電子和便攜式設備的成本敏感型選擇 。 ”
其他人也同意這一點 。 “LPDDR 是內存領域的萬能者——事實上 , 它在某些方面堪稱大師 , ”Murdock 說 。 “它同時占領了移動和汽車應用領域 。 ”
人們甚至可以嘗試用它來創建一個窮人的HBM 。 “你可以堆疊LPDDR來獲得容量 , ” Rambus內存接口芯片產品營銷副總裁John Eble指出 。
LPDDR 也正在進入數據中心 , 作為一種降低功耗的方式 , 盡管它無法滿足超大規模數據中心用戶的所有需求 。 “LPDDR 的主要缺點是缺乏 RAS(可靠性、可用性、可維護性)功能 , 而且它不具備同等程度的 ECC , ”Eble 說道 。 “或者說 , 存在‘芯片失效’的概念 , 即 DRAM 芯片失效后可以恢復 。 LPDDR 的設計初衷并非為了實現這種級別的 RAS 功能 。 ”
盡管 DDR 通常與 CPU 配套使用 , 但 LPDDR 也已占據先機 。 “NVIDIA 推出了基于 Arm 的 Grace 處理器 , 并選擇將其與 LPDDR 內存捆綁 , ”Eble 補充道 。
在性能至關重要的邊緣系統中 , LPDDR 也可能取代 DDR 。 “許多邊緣設備沒有內存 , 而那些有內存的設備通常只需要很少的內存 , 所以它們傾向于尋找最便宜的內存 , ”Murdock 說 。 “那些真正需要內存發揮一定性能的設備會選擇 LPDDR , 因為它的功耗和性能都很好 。 ”
總是被人嫌棄?
在 AI 系統中 , GDDR 是比較少見的內存家族 , 它具備一些對 AI 系統有吸引力的特性 , 但在關鍵參數上往往屈居第二 。 GDDR 的吞吐量高于 LPDDR , 但低于 HBM 。 它的成本低于 HBM 或 LPDDR , 但不低于 DDR 。 目前還沒有明確的參數要求某些類型的系統必須使用 GDDR 。 因此 , GDDR 經常被 AI 系統所忽略 。
Roddy 表示:“GDDR 似乎是 AI 應用的反“金發姑娘”方案 。 它總是‘不合適’ 。 對于面向推理的消費設備來說 , GDDR 價格過高 , 而設計精良、具有離線編譯功能的 NPU 可以智能地預取權重和激活函數 , 這樣就永遠不需要 GDDR 更快的隨機訪問速度了 。 而在數據中心 , HBM 的原始速度優勢已經取代了 GDDR 。 ”
然而 , 只要其有限的容量不成為障礙 , 它對于圖形相關的生成算法來說前景光明 。 “它主要用于圖形和生成式人工智能的某些方面 , ”Tadishetti 說 。 “隨著我們觀察到圖像和視頻生成模型的日益增長趨勢 , 一些需求可能會轉向 GDDR——但需要明確的是 , 我們還沒有看到 OEM 這樣做 。 ”
四大路線圖:所有 DRAM 標準均源自 JEDEC , 但每種類型都有各自的委員會 。 DDR 由 JC-42.3 子委員會(典型的 JEDEC 命名法 , 其中 JC-42 涵蓋所有固態存儲器)負責 , JC-42.1 負責標準化 GDDR , JC-42.2 負責 HBM , JC-42.6 負責 LPDDR 。 這四個委員會都在繼續推進各自的 DRAM 產品 , 但 LPDDR 和 HBM 版本正受到更多關注 。
Murdock 表示:“LPDDR5X 現已上市 , 價格合理 , 能夠滿足許多應用的功耗和性能需求 。 鑒于 LPDDR6 相較于 LPDDR5X 的性能提升 , 我們已經看到設計初期對它的需求 。 ”
雖然 LPDDR6 的具體變化尚未公開 , 但預計主要會影響時鐘速度、存儲方式、總線寬度和突發訪問 。 此外 , 它還內置了糾錯碼 (ECC) , 這證明了高速下單元和信號的脆弱性 。 預計該芯片將于今年年底上市 。
HBM4 是備受期待的下一代高帶寬內存版本 。 與 HBM3 相比 , 它的帶寬、通道數和數據總線寬度均翻了一番 。 預計將于 2026 年上市 。 “HBM3E 目前已可輕松獲得 , 但 HBM4 JEDEC 標準剛剛發布 , 因此設計工作將迅速轉向 HBM4 , 以獲得其帶來的更高性能 , ”Murdock 說道 。
動態環境即使內存速度提升、相對功耗下降 , 處理器也在經歷類似的發展 。 理想情況下 , 處理器和內存應該同步發展 , 不會成為瓶頸 。 但它們是獨立開發的 , 因此未來總會有一些跨越式發展 。
盡管專用NPU難以大規模應用 , 但其中一些NPU承諾實現低功耗執行 。 如果它們流行起來 , 將給功耗受限系統中使用的內存帶來更大壓力 。 同樣 , 隨著數據中心處理器性能的提升 , HBM也需要跟上步伐 。
僅僅選擇合適的內存是不夠的 。 確保高質量的訪問信號對于高速運行至關重要 。 “從系統性能的角度來看 , 這些通道確實是最重要的 , 我們必須考慮信號完整性 , ”Cadence 的 Ferro 說道 。 “如果我是一名系統設計師 , 我應該能夠從一家供應商那里購買 GDDR6 DRAM , 然后從另一家供應商那里安裝 GDDR6 。 但是 , 一家供應商的 GDDR6 DRAM 的運行速度可能為 16 GB/s , 而另一家供應商的 DRAM 可能有 18 GB/s 的版本 。 你可以把那一家供應商的 GDDR6 DRAM 放進去 , 它也能工作 , 但那個通道能處理 18 GB/s 的速度嗎?”
盡管趨勢很明顯 , 但系統設計師仍然需要做好功課 , 為特定系統找到最合適的特定內存 , 并確保系統能夠跟上 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
【人工智能的最佳DRAM】想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀