谷歌新內存技術“炸”了存儲芯片市場閃迪暴跌超11%

2026-05-01 ai it芯片芯片閃迪 Google

快科技3月27日消息，據媒體報道，美東時間3月26日，存儲芯片股集體重挫，閃迪跌超11% ，希捷跌逾8% ，超威半導體、西部數據跌逾7% ，美光科技跌近7% 。
業內人士分析，這一波動源自谷歌研究院即將在國際學習表征會議（ICLR 2026）上正式亮相的學術論文，該研究推出了一種新型AI內存壓縮技術“TurboQuant” 。
谷歌宣稱，該技術可將大語言模型推理中的緩存內存占用壓縮至六分之一，并在英偉達H100 GPU上實現最高8倍的性能加速。
AI模型運行時存在一種“工作內存” ，即KV緩存（Key-Value Cache）。每當模型處理信息、生成回答時， KV緩存便會迅速膨脹，且上下文窗口越長，緩存占用的內存越大。
TurboQuant本質上是一種極致的量化壓縮算法，傳統量化方法需要在壓縮精度和額外存儲開銷之間妥協，而谷歌團隊通過PolarQuant（極坐標量化）和QJL（量化JL變換）兩項創新，實現了在“零損失”前提下將KV緩存壓縮至3-bit精度。
【谷歌新內存技術“炸”了存儲芯片市場閃迪暴跌超11%】Cloudflare首席執行官將這一成果稱為谷歌的“DeepSeek時刻” ，認為其有望像DeepSeek一樣，通過極致效率大幅拉低AI的運行成本。
不過，摩根士丹利在最新研報中指出，市場對此存在誤讀。該技術僅作用于推理階段的鍵值緩存，并不影響模型權重所占用的高帶寬內存（HBM），也與AI訓練任務無關。
分析師強調，所謂的“6倍壓縮”并非存儲總需求的減少，而是通過效率提升增加單GPU的吞吐量。這意味著在相同硬件條件下，可以支持4倍至8倍更長的上下文，或在不觸發內存溢出的前提下顯著提升批處理規模。
目前，谷歌尚未公布TurboQuant在Gemini等自研模型中的具體部署時間表，研究團隊計劃在下個月的ICLR 2026會議上正式發布相關成果。

推薦閱讀

上一篇：光輪智能副總裁：機器人進家庭5年內可實現，今年內將“有觸感”

下一篇：RGB純三色激光又有“新突破” 首個專利技術將發布