NVIDIA發明重磅新技術KVTC:讓內存使用量縮減20倍

NVIDIA發明重磅新技術KVTC:讓內存使用量縮減20倍
NVIDIA研究人員推出一項全新技術KVTC(KV快取轉換編碼) , 能把大型語言模型(LLM)追蹤對話歷史的內存用量 , 最高縮減20倍 , 而且不用修改模型本身 。
這一突破有望解決大型語言模型長對話推理時的內存不夠用問題 , 大大降低企業使用AI的硬件成本 , 同時還能把模型首次生成回應的時間 , 最高提速8倍 。
簡單來說 , KVTC技術的核心就是壓縮大型語言模型背后的KV緩存——它相當于AI模型的“短期記憶” 。 我們可以把KV緩存理解成學生記筆記:模型處理對話時 , 會把關鍵信息(也就是Key和Value)記下來 , 下次生成回應時 , 不用從頭重新計算整段對話 , 響應速度就能大幅提升 。
但問題是 , 對話越長 , 這份“筆記”就越大 , 甚至會膨脹到幾個GB , 占用大量GPU內存 , 反而拖慢模型運行、限制其處理能力 。
NVIDIA資深深度學習工程師Adrian Lancucki表示:“大型語言模型進行推論時 , 性能瓶頸往往不在運算能力 , 而在GPU內存 。 ”那些暫時不用的KV緩存 , 會一直占用寶貴的GPU資源 , 逼得系統只能把它們轉移到CPU內存或硬盤里 , 這樣不僅會增加數據傳輸的負擔 , 還可能出現新的卡頓問題 , 這些額外成本最終也會體現在企業的使用費用中 。
和現有壓縮技術相比 , KVTC沒有那些明顯的局限 , 它借鑒了我們熟悉的JPEG圖片壓縮思路 , 通過“主成分分析、自適應量化、熵編碼”三個簡單步驟 , 就能實現高效壓縮 。
更方便的是 , 這項技術不用改動模型的核心設置和代碼 , 屬于“非侵入式”設計 , 企業拿來就能快速部署 。 它的核心優勢是 , 能抓住KV緩存“數據高度相關”的特點 , 在保留關鍵信息的同時 , 去掉冗余數據 , 而且解壓時可以分塊、逐層進行 , 不會影響模型實時回應 。
多輪測試顯示 , KVTC的表現遠超現有主流方法 。 在參數量從15億到700億的多種模型(包括Llama 3系列、R1-Qwen 2.5等)上 , 即便將內存壓縮20倍 , 模型準確率也幾乎不受影響 , 損失不到1% , 與未壓縮時相差無幾;而傳統壓縮方法僅壓縮5倍 , 就會出現明顯的準確率下降 。
另外 , 在H100 GPU上處理8000個Token的提示時 , 不使用KVTC需要3秒才能生成第一個回應 , 使用后僅需380毫秒 , 提速整整8倍 。
需要注意的是 , KVTC更適合長對話、多輪互動場景 , 比如編程助手、迭代式代理推理等 , 若對話較短 , 很難發揮其壓縮價值 。
【NVIDIA發明重磅新技術KVTC:讓內存使用量縮減20倍】目前 , NVIDIA正計劃將這項技術整合進Dynamo框架的KV塊管理器 , 使其能與vLLM等主流開源推論引擎兼容 。
業內人士認為 , 隨著大型語言模型可處理的對話長度不斷增加 , KVTC這類標準化壓縮技術 , 未來可能會像視頻壓縮一樣普及 , 助力AI更廣泛地落地應用 。

    推薦閱讀