NVIDIA發明重磅新技術KVTC：讓內存使用量縮減20倍

2026-04-21 ai 英偉達 gpu

NVIDIA研究人員推出一項全新技術KVTC（KV快取轉換編碼），能把大型語言模型（LLM）追蹤對話歷史的內存用量，最高縮減20倍，而且不用修改模型本身。
這一突破有望解決大型語言模型長對話推理時的內存不夠用問題，大大降低企業使用AI的硬件成本，同時還能把模型首次生成回應的時間，最高提速8倍。
簡單來說， KVTC技術的核心就是壓縮大型語言模型背后的KV緩存——它相當于AI模型的“短期記憶” 。我們可以把KV緩存理解成學生記筆記：模型處理對話時，會把關鍵信息（也就是Key和Value）記下來，下次生成回應時，不用從頭重新計算整段對話，響應速度就能大幅提升。
但問題是，對話越長，這份“筆記”就越大，甚至會膨脹到幾個GB ，占用大量GPU內存，反而拖慢模型運行、限制其處理能力。
NVIDIA資深深度學習工程師Adrian Lancucki表示：“大型語言模型進行推論時，性能瓶頸往往不在運算能力，而在GPU內存。 ”那些暫時不用的KV緩存，會一直占用寶貴的GPU資源，逼得系統只能把它們轉移到CPU內存或硬盤里，這樣不僅會增加數據傳輸的負擔，還可能出現新的卡頓問題，這些額外成本最終也會體現在企業的使用費用中。
和現有壓縮技術相比， KVTC沒有那些明顯的局限，它借鑒了我們熟悉的JPEG圖片壓縮思路，通過“主成分分析、自適應量化、熵編碼”三個簡單步驟，就能實現高效壓縮。
更方便的是，這項技術不用改動模型的核心設置和代碼，屬于“非侵入式”設計，企業拿來就能快速部署。它的核心優勢是，能抓住KV緩存“數據高度相關”的特點，在保留關鍵信息的同時，去掉冗余數據，而且解壓時可以分塊、逐層進行，不會影響模型實時回應。
多輪測試顯示， KVTC的表現遠超現有主流方法。在參數量從15億到700億的多種模型（包括Llama 3系列、R1-Qwen 2.5等）上，即便將內存壓縮20倍，模型準確率也幾乎不受影響，損失不到1% ，與未壓縮時相差無幾；而傳統壓縮方法僅壓縮5倍，就會出現明顯的準確率下降。
另外，在H100 GPU上處理8000個Token的提示時，不使用KVTC需要3秒才能生成第一個回應，使用后僅需380毫秒，提速整整8倍。
需要注意的是， KVTC更適合長對話、多輪互動場景，比如編程助手、迭代式代理推理等，若對話較短，很難發揮其壓縮價值。
【NVIDIA發明重磅新技術KVTC：讓內存使用量縮減20倍】目前， NVIDIA正計劃將這項技術整合進Dynamo框架的KV塊管理器，使其能與vLLM等主流開源推論引擎兼容。
業內人士認為，隨著大型語言模型可處理的對話長度不斷增加， KVTC這類標準化壓縮技術，未來可能會像視頻壓縮一樣普及，助力AI更廣泛地落地應用。

推薦閱讀

上一篇：AppleCare One 即將跨出美國本土！

下一篇：終于不用再頻繁換主板！Intel接口壽命將看齊AMD：支持多代CPU