西部數據推動高帶寬閃存技術發展應對AI內存瓶頸

西部數據推動高帶寬閃存技術發展應對AI內存瓶頸

西部數據發布博客文章 , 介紹了與韓國科學技術院電子電氣工程系高帶寬內存技術先驅金正浩教授的訪談 。 金正浩教授曾參與HBM技術開發 , 目前正致力于高帶寬閃存技術研究 。 西部數據認為 , HBF技術是解決GPU HBM內存墻問題的答案——當AI工作負載的上下文內存超出HBM容量時 , 會導致耗時的向量重新計算 。
去年我們曾報道過這項技術 , 并指出其開發過程將十分復雜 。 作為最大的HBM采購商 , 英偉達尚未對該技術表達公開興趣 。
此后 , 英偉達開發了上下文內存擴展技術ICMSP , 使用連接DPU的NVMe固態硬盤來存儲從HBM和GPU服務器DRAM溢出的鍵值緩存數據 。 ICMSP本質上是比標準SSD具有更高帶寬和更低延遲的閃存技術 , 因為它連接的BlueField-4 DPU是存儲加速器 , 通過Spectrum-6以太網連接到Vera Rubin集群中的GPU , 使用光子技術 , 每端口運行速度達800 Gbps 。
AI內存瓶頸推動技術創新需求
金教授闡述了HBF等技術的必要性:\"在AI Transformer模型中 , 特別是推理場景下 , 計算受到內存限制 。 相比大量計算 , 系統花費更多時間從內存讀取數據和執行寫入過程 。 帶寬成為限制因素 。 \"
他指出:\"不幸的是 , 大多數推理和訓練過程以及性能都受到內存限制 。 這意味著我們需要更多內存創新 。 在內存領域 , 我們有SRAM、DRAM和NAND閃存 。 我們必須以某種方式設計這些連接 。 \"
金教授認為\"計算創新主要將由內存架構驅動 。 我堅信這一點 。 \"
他提出了一個模型 , 可以部署100GB HBM作為1TB HBF層前的緩存 , 并指出:\"挑戰在于GPU必須接受這種新架構 , 這對它們是最佳選擇 。 此外 , 開發者必須修改軟件以優化軟硬件協同工作 。 例如 , 某些數據必須直接從HBF連接并傳輸到HBM 。 因此 , 他們需要新的指令集和電路來支持這些功能 。 他們必須接受這些新參數 。 \"
這使得HBF的采用變得更加復雜 。
技術實現面臨多重挑戰
從更廣闊的角度來看 , HBF技術開發是一項多年努力 , 需要像英偉達這樣的GPU制造商在其GPU周圍部署一組HBM芯片 , 如果HBM緩存HBF , 則需要在HBM周圍再部署一組HBF芯片;如果不緩存 , 則需要提供直接的GPU到HBF連接 , 這會使GPU內存管理變得更加復雜 。 這涉及大量半導體級別的工作 。
值得注意的是 , SK海力士和英偉達正在合作開發1億IOPS AI固態硬盤概念 。 如果該SSD用于英偉達的BlueField-4連接的ICMSP中 , 那么可能就不需要HBF技術了 。
我們認為 , 如果SSD行業建立通用的HBF標準 , 并且英偉達采用HBF作為技術方向 , 那么HBF技術就有未來 。 缺少這兩個條件 , 該技術將面臨困境 。
Q&A
Q1:高帶寬閃存HBF技術是什么?它要解決什么問題?
A:高帶寬閃存是一種新型存儲技術 , 旨在解決AI工作負載中的GPU內存瓶頸問題 。 當AI推理任務的上下文內存超出HBM容量時 , 會導致耗時的向量重新計算 , HBF技術可以提供更大容量和更高帶寬的存儲解決方案 。
Q2:HBF技術實現有哪些技術挑戰?
A:HBF技術面臨多重挑戰:GPU制造商需要重新設計架構 , 在GPU周圍部署HBM和HBF芯片;開發者需要修改軟件以優化硬件協同;還需要新的指令集和電路支持直接的HBF到HBM數據傳輸 , 這些都涉及大量半導體級別的復雜工作 。
Q3:英偉達對HBF技術的態度如何?有替代方案嗎?
A:英偉達作為最大的HBM采購商 , 尚未對HBF技術表達公開興趣 。 相反 , 英偉達開發了ICMSP技術 , 使用連接DPU的NVMe固態硬盤存儲溢出的緩存數據 。 此外 , 英偉達還與SK海力士合作開發1億IOPS AI固態硬盤 , 這可能成為HBF的替代方案 。
【西部數據推動高帶寬閃存技術發展應對AI內存瓶頸】

    推薦閱讀