谷歌沖破內存墻!新算法內存占用暴砍83%,速度提升8倍!

谷歌沖破內存墻!新算法內存占用暴砍83%,速度提升8倍!

文章圖片

谷歌沖破內存墻!新算法內存占用暴砍83%,速度提升8倍!

文章圖片

谷歌沖破內存墻!新算法內存占用暴砍83%,速度提升8倍!

文章圖片

谷歌沖破內存墻!新算法內存占用暴砍83%,速度提升8倍!

智東西
編譯 | 劉煜
編輯 | 陳駿達
智東西3月26日報道 , 昨天 , 谷歌于發布了一款針對大語言模型鍵值緩存(KV Cache)的無損極限壓縮算法TurboQuant , 它能夠從根本上解決向量量化中內存開銷問題 。 谷歌稱 , TurboQuant可將大語言模型鍵值緩存內存占用至少降至原來的1/6 , 推理速度最高提升8倍 , 同時保持100%精確程度 。
Cloudflare的聯合創始人、CEO兼執行主席Matthew Prince稱 , 谷歌推出TurboQuant堪稱“谷歌的DeepSeek時刻” 。
Matthew Prince的推文(圖源:X)
向量量化一直是企業為AI數據 “瘦身” 的主流技術 , 主要用于壓縮高維向量、節省內存、提升檢索與推理效率 。 但傳統壓縮方法通常會引入額外的內存開銷(每一小塊數據都要單獨算、單獨存一套完整的“壓縮參數”) , 這些參數很占內存 , 每個數字都要多占1-2 bit , 這樣反而會影響向量量化的效果 。
谷歌稱 , 此次推出的TurboQuant借助了谷歌提出的1 bit無偏誤差校正算法QJL與極坐標量化壓縮技術PolarQuant , 實現了壓縮算法的突破 。
谷歌官宣推出TurboQuant后 , 引發資本市場短期內對該技術會降低存儲芯片采購需求的擔憂 , 導致存儲芯片板塊集體回調 。
當天美股盤中 , 美光股票跌幅超過5% , 收盤時下跌3.4% , 市值蒸發約151.6億美元(約合人民幣1047.37億元) 。 閃迪股票下跌幅度更大 , 一度超過7% , 收盤時下跌3.5% , 市值蒸發約36.44億美元(約合人民幣251.75億元) 。 韓股收盤時 , SK海力士股價下跌了6.23% 。
美光、閃迪股價圖(圖源:騰訊自選股)SK海力士股價圖(圖源:Investing)
博客鏈接:
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

一、TurboQuant的工作原理:高質量壓縮與誤差修正TurboQuant能夠在零精度損失下實現模型尺寸的大幅縮小 , 非常適合支持鍵值緩存壓縮和向量搜索 。 它主要通過兩個關鍵步驟實現這一目標 。
TurboQuant首先對數據向量進行隨機旋轉變換 , 這樣處理簡化了數據的幾何結構 , 使得TurboQuant可以對向量的每個部分單獨應用標準的高質量量化器(量化器是一種將大量連續數值映射為更少并且離散的符號或數值的工具 , 比如音頻量化與JPEG壓縮) 。
第一階段 , PolarQuant利用大部分壓縮算力(絕大多數比特位)來捕捉原始向量的核心語義與特征強度 , 完成主體壓縮 。
PolarQuant不再使用表示各軸距離的標準坐標系(即X、Y、Z坐標)來描述向量 , 而是通過笛卡爾坐標系將向量轉換為極坐標 。 這就好比把“向東走3個街區 , 向北走4個街區” , 替換成“沿37度方向走5個街區” 。
PolarQuant轉換后只會保留半徑(代表核心數據的強度)和角度(代表數據的方向或語義) 。 由于角度的分布規律已知且高度集中 , 模型不再需要執行計算代價高昂的數據歸一化操作 。 它將數據映射到一個邊界固定、可預測的圓形網格上 , PolarQuant就不用再存那些“用來表示數據范圍”的額外信息 , 從而省下了一大塊內存空間 。
PolarQuant工作概念圖(圖源:谷歌官網)
第二階段 , TurboQuant僅以1 bit的極小額外內存開銷 , 將QJL作用于第一階段壓縮后殘留的微小誤差上 , 消除誤差 。
QJL采用一種名為約翰遜–林登斯特勞斯變換(Johnson-Lindenstrauss Transform)的數學方法 , 在保留數據點之間基本距離與關聯關系的前提下 , 把復雜的數據壓縮成了一種超級簡單、幾乎不占額外內存、計算又特別快的格式 。
QJL在高精度查詢與低精度簡化數據之間進行結構化平衡 , 相當于一個數學誤差校正器 , 能夠消除壓縮帶來的偏差 。 這使得模型能夠精準計算注意力分數(即判斷輸入信息中哪些部分重要、哪些部分可安全忽略的核心過程) 。

二、拆解測試:TurboQuant強在哪?谷歌稱 , 在實驗中 , TurboQuant能在完全不降低AI模型效果、不損失精度的前提下 , 顯著解決鍵值緩存給模型推理帶來的性能瓶頸 。
谷歌拿Meta開源的Llama-3.1-8B模型做測試 , 將TurboQuant、PolarQuant和KIVI算法相比較 , 可以看到 , 與官方基準線Full Cache相比 , TurboQuant能夠將鍵值緩存量化至僅3.5 bit , 并且沒有損失模型精度 。 同時 , PolarQuant也幾乎實現了無損壓縮 。
TurboQuant的緩存壓縮性能圖(橫軸為性能得分 , 縱軸為量化方案)(圖源:谷歌官網)
谷歌對3種不同量化位寬的TurboQuant進行測試 , 結果表明 , 在下圖的所有序列長度(模型處理的文本token數量)中 , TurboQuant 1 bit版本加速比最高 , 4 bit版本加速比最低 。 在1M超長上下文中 , TurboQuant 1 bit版本加速比在13倍左右 , 4 bit版本在7倍左右 。
同時 , 谷歌稱TurboQuant在JAX框架(谷歌的超級加速框架)的基礎上 , 仍能實現顯著加速 。 在英偉達的H100 GPU上 , TurboQuant 4 bit版本相比不壓縮的32bit原版鍵值緩存 , 速度最高提升8倍 , 不僅能加速大模型推理 , 還能大幅優化向量搜索、索引構建等關鍵場景 。
TurboQuant計算注意力logits的加速效果圖(橫軸為序列長度 , 縱軸為加速比)(圖源:谷歌官網)
在高維向量搜索任務中 , 谷歌以1@k召回率(1@k召回率用于衡量算法在其前k個近似結果中 , 壓縮后的向量和不壓縮時算出“最相似結果”一樣的概率 。 )為指標 , 將TurboQuant與當前最優方法PQ和RabbiQ進行了效果對比 。
從下圖可以看到 , 不管是2 bit還是4 bit版本的TurboQuant , 都在召回率指標上持續取得了更優表現 。 這證實了TurboQuant在高維搜索任務中的穩健性與高效性 。
同時 , 谷歌稱 , 在GloVe數據集(維度d=200)(斯坦福大學發布的經典預訓練詞向量數據集)上 , TurboQuant在與當前多種主流先進量化方法的對比中 , 展現出穩健的檢索性能 , 并實現了最優的1@k召回率 。
TurboQuant的召回率圖(橫軸是檢索范圍 , 縱軸是召回率)(圖源:谷歌官網)
由此可見 , TurboQuant在PolarQuant主體壓縮的基礎上 , 通過極低比特量化與誤差校正 , 使鍵值緩存的存儲空間顯著減少 , 讓模型能夠在相同硬件條件下處理更長的上下文、更大的批量數據 , 同時降低推理成本 。
此外 , TurboQuant的推理速度極快 , 精度幾乎達到無損效果 , 即使在超長文本下其推理能力依然穩定高效 。
【谷歌沖破內存墻!新算法內存占用暴砍83%,速度提升8倍!】
結語:算法博弈下的存儲焦慮 , 企業推動大模型“瘦身”革命TurboQuant在谷歌的測試中表現出了出色的出成績 , 它能夠以極低的內存占用、近乎為零的預處理耗時 , 完成大規模向量索引的構建與查詢 , 這讓“谷歌級別”的語義搜索變得更加快速高效 。
早在2025年 , 英偉達于在arXiv上公開了第一版KVTC , 證明它能把大模型的鍵值緩存壓縮到原來的 1/20 , 同時精度損失不到1% 。 近期 , 英偉達更新了實測數據 , 稱在H100 GPU上處理8000 Token的長提示時 , 模型生成第一個詞的時間 , 從傳統方案的3秒左右 , 縮短至380毫秒 , 速度提升8倍 。
科技大廠正通過持續的算法創新與迭代 , 不斷提升AI大模型的推理效率 。 在當前存儲芯片供應緊張的背景下 , 企業通過對大模型推理過程中的鍵值緩存進行高效壓縮 , 來提升大模型自身的推理效率 , 或許可以在一定程度上緩解存儲芯片產能跟不上AI算力發展速度的局面 。

    推薦閱讀