DeepSeek再發新論文,DualPath架構如何將推理吞吐量提升近2倍?

DeepSeek再發新論文,DualPath架構如何將推理吞吐量提升近2倍?

【TechWeb】2月27日消息 , 就在外界翹首期盼DeepSeek-V4大模型發布之際 , DeepSeek團隊再次帶來了一份技術驚喜 。
DeepSeek聯合北京大學、清華大學發布了一篇題為《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》的論文 , 提出了一種創新的推理系統架構 , 直指當前大語言模型在多輪Agent交互場景下的核心性能瓶頸 。
論文開篇指出了一個重要趨勢:LLM正在從單輪對話機器人演變為能夠自主規劃、調用工具、解決現實世界任務的Agentic系統 。 在這種新范式下 , 模型不再處理孤立的提示詞 , 而是參與長達數十甚至數百輪的長期會話 , 上下文不斷累積 。
這種變化帶來了全新的計算特征:高KV-Cache(鍵值緩存)命中率、低計算需求 。 論文中的數據顯示 , 在典型的編碼任務軌跡中 , 平均輪次達到157輪 , 平均上下文長度32.7K tokens , 而每次追加的平均長度僅429 tokens , 這意味著KV-Cache命中率高達98.7% 。
這種“長上下文、短追加、多輪次”的工作負載模式 , 使得KV-Cache的加載效率而非計算效率成為主導性能的關鍵因素 。
現有架構的致命弱點
當前主流的LLM推理系統普遍采用預填充-解碼分離架構 。 在這種設計中 , 預填充引擎負責從分布式存儲加載KV-Cache , 然后傳輸給解碼引擎進行自回歸生成 。
然而 , 論文揭示了一個嚴重的資源利用不平衡問題:預填充引擎的存儲網絡帶寬成為整個系統的吞吐瓶頸 , 而解碼引擎的存儲網絡帶寬卻基本閑置 。
更令人擔憂的是硬件發展趨勢 。 論文數據顯示 , 從NVIDIA Ampere架構到Blackwell架構 , I/O與計算的比例下降了14.4倍 。 這意味著GPU算力增長遠快于網絡帶寬和HBM容量的增長 , 導致I/O瓶頸問題日益嚴重 。
DualPath的創新突破
面對這一挑戰 , DeepSeek團隊提出了一個反直覺的解決方案:讓KV-Cache加載不再局限于預填充引擎 。
DualPath的核心洞察是:可以利用解碼引擎閑置的存儲帶寬來加載KV-Cache , 然后通過高性能RDMA計算網絡傳輸給預填充引擎 。 這種“雙路徑加載”架構將存儲I/O從單一瓶頸資源轉變為全局可調度的容量池 。
【DeepSeek再發新論文,DualPath架構如何將推理吞吐量提升近2倍?】具體實現中 , DualPath在預填充引擎和解碼引擎上各分配少量DRAM作為緩沖區 。 當采用傳統的預填充讀取路徑時 , KV-Cache從存儲加載到預填充引擎緩沖區 , 然后逐層傳輸到GPU HBM進行計算 , 最后傳輸給解碼引擎 。 而當采用新穎的解碼讀取路徑時 , KV-Cache首先加載到解碼引擎緩沖區 , 然后在預填充計算過程中逐層傳輸給預填充引擎 。
實現這一設計面臨三個關鍵挑戰:
第一 , 細粒度數據傳輸 。層式預填充技術將KV-Cache分割成眾多細粒度塊 , 傳輸這些小塊數據需要極低的開銷 。 DualPath通過設計兩種塊布局(全量塊和層塊)來優化傳輸效率 。
第二 , 流量隔離 。額外的KV-Cache傳輸流量可能與模型執行中的延遲敏感型集體通信產生干擾 。 DualPath采用CNIC中心化的數據傳輸方式 , 所有進出GPU的數據都必須通過GPU配對的計算NIC , 并利用InfiniBand的虛擬通道技術實現嚴格的流量分級 。
第三 , 動態負載均衡 。系統需要在線決策每條請求使用哪條加載路徑 。 DualPath設計了兩級調度算法 , 綜合考慮存儲NIC隊列長度、GPU計算負載和請求特征 , 實現計算和網絡資源的聯合平衡 。
推理吞吐量提升近2倍
論文在三個模型上進行了全面評估:DeepSeek-V3.2 660B、一個27B的降規模版本以及Qwen2.5-32B 。
實驗數據令人印象深刻:在離線批處理推理場景(如強化學習訓練中的 rollout 階段)中 , DualPath相比基線系統實現了最高1.87倍的吞吐量提升 。 在在線服務場景中 , DualPath在不違反SLO的前提下 , 平均提升了1.96倍的Agent每秒處理能力 。
研究團隊還在多達1152塊GPU的規模上驗證了DualPath的可擴展性 。 從2個預填充引擎+4個解碼引擎擴展到48+96配置時 , 系統實現了接近線性的加速 。 在在線服務場景中 , 44+88配置實現了22倍的吞吐量提升 , 同時保持相似的延遲特征 。
同時 , 論文也指出了未來工作方向:更自適應、更靈活的并行度和預填充-解碼比例配置方法 , 以及在大規模部署中實現更低的TTFT(Time To First Token)百分位數 。
在萬眾期待DeepSeek-V4之際 , 這篇論文展示了DeepSeek團隊在系統層面的深厚積累 。 DualPath的創新不僅解決了當前Agentic LLM推理的核心瓶頸 , 也為未來更大規模、更復雜的多輪交互應用鋪平了道路 。 (宜月)

    推薦閱讀