DeepSeek再發新論文，DualPath架構如何將推理吞吐量提升近2倍？

2026-04-12 人工智能 ai 北京

【TechWeb】2月27日消息，就在外界翹首期盼DeepSeek-V4大模型發布之際， DeepSeek團隊再次帶來了一份技術驚喜。
DeepSeek聯合北京大學、清華大學發布了一篇題為《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》的論文，提出了一種創新的推理系統架構，直指當前大語言模型在多輪Agent交互場景下的核心性能瓶頸。
論文開篇指出了一個重要趨勢：LLM正在從單輪對話機器人演變為能夠自主規劃、調用工具、解決現實世界任務的Agentic系統。在這種新范式下，模型不再處理孤立的提示詞，而是參與長達數十甚至數百輪的長期會話，上下文不斷累積。
這種變化帶來了全新的計算特征：高KV-Cache（鍵值緩存）命中率、低計算需求。論文中的數據顯示，在典型的編碼任務軌跡中，平均輪次達到157輪，平均上下文長度32.7K tokens ，而每次追加的平均長度僅429 tokens ，這意味著KV-Cache命中率高達98.7% 。
這種“長上下文、短追加、多輪次”的工作負載模式，使得KV-Cache的加載效率而非計算效率成為主導性能的關鍵因素。
現有架構的致命弱點
當前主流的LLM推理系統普遍采用預填充-解碼分離架構。在這種設計中，預填充引擎負責從分布式存儲加載KV-Cache ，然后傳輸給解碼引擎進行自回歸生成。
然而，論文揭示了一個嚴重的資源利用不平衡問題：預填充引擎的存儲網絡帶寬成為整個系統的吞吐瓶頸，而解碼引擎的存儲網絡帶寬卻基本閑置。
更令人擔憂的是硬件發展趨勢。論文數據顯示，從NVIDIA Ampere架構到Blackwell架構， I/O與計算的比例下降了14.4倍。這意味著GPU算力增長遠快于網絡帶寬和HBM容量的增長，導致I/O瓶頸問題日益嚴重。
DualPath的創新突破
面對這一挑戰， DeepSeek團隊提出了一個反直覺的解決方案：讓KV-Cache加載不再局限于預填充引擎。
DualPath的核心洞察是：可以利用解碼引擎閑置的存儲帶寬來加載KV-Cache ，然后通過高性能RDMA計算網絡傳輸給預填充引擎。這種“雙路徑加載”架構將存儲I/O從單一瓶頸資源轉變為全局可調度的容量池。
【DeepSeek再發新論文，DualPath架構如何將推理吞吐量提升近2倍？】具體實現中， DualPath在預填充引擎和解碼引擎上各分配少量DRAM作為緩沖區。當采用傳統的預填充讀取路徑時， KV-Cache從存儲加載到預填充引擎緩沖區，然后逐層傳輸到GPU HBM進行計算，最后傳輸給解碼引擎。而當采用新穎的解碼讀取路徑時， KV-Cache首先加載到解碼引擎緩沖區，然后在預填充計算過程中逐層傳輸給預填充引擎。
實現這一設計面臨三個關鍵挑戰：
第一，細粒度數據傳輸。層式預填充技術將KV-Cache分割成眾多細粒度塊，傳輸這些小塊數據需要極低的開銷。 DualPath通過設計兩種塊布局（全量塊和層塊）來優化傳輸效率。
第二，流量隔離。額外的KV-Cache傳輸流量可能與模型執行中的延遲敏感型集體通信產生干擾。 DualPath采用CNIC中心化的數據傳輸方式，所有進出GPU的數據都必須通過GPU配對的計算NIC ，并利用InfiniBand的虛擬通道技術實現嚴格的流量分級。
第三，動態負載均衡。系統需要在線決策每條請求使用哪條加載路徑。 DualPath設計了兩級調度算法，綜合考慮存儲NIC隊列長度、GPU計算負載和請求特征，實現計算和網絡資源的聯合平衡。
推理吞吐量提升近2倍
論文在三個模型上進行了全面評估：DeepSeek-V3.2 660B、一個27B的降規模版本以及Qwen2.5-32B 。
實驗數據令人印象深刻：在離線批處理推理場景（如強化學習訓練中的 rollout 階段）中， DualPath相比基線系統實現了最高1.87倍的吞吐量提升。在在線服務場景中， DualPath在不違反SLO的前提下，平均提升了1.96倍的Agent每秒處理能力。
研究團隊還在多達1152塊GPU的規模上驗證了DualPath的可擴展性。從2個預填充引擎+4個解碼引擎擴展到48+96配置時，系統實現了接近線性的加速。在在線服務場景中， 44+88配置實現了22倍的吞吐量提升，同時保持相似的延遲特征。
同時，論文也指出了未來工作方向：更自適應、更靈活的并行度和預填充-解碼比例配置方法，以及在大規模部署中實現更低的TTFT（Time To First Token）百分位數。
在萬眾期待DeepSeek-V4之際，這篇論文展示了DeepSeek團隊在系統層面的深厚積累。 DualPath的創新不僅解決了當前Agentic LLM推理的核心瓶頸，也為未來更大規模、更復雜的多輪交互應用鋪平了道路。（宜月）

推薦閱讀

上一篇：第四屆北京人工智能產業創新發展大會成功舉辦

下一篇：千問又要動手了