1200行代碼逆襲！DeepSeek工程師開源輕量級vLLM，吞吐量逼近原版_吞吐量

文章圖片

【1200行代碼逆襲！DeepSeek工程師開源輕量級vLLM，吞吐量逼近原版】

文章圖片

機器之心報道
機器之心編輯部
開源社區的人應該對 vLLM 不陌生，它是一個由加州大學伯克利分校團隊開發的高性能、開源 LLM 推理和服務引擎，核心目標是提升 LLM 的推理速度（吞吐量）和資源利用率（尤其是內存），同時兼容 Hugging Face 等流行模型庫。
簡單來說， vLLM 能讓 GPT、Mistral、LLaMA 等主流模型系列跑得更快、消耗更少資源，取得這些效果的關鍵是其創新的注意力機制實現方案 ——PagedAttention 。
近日， DeepSeek AI 研究者、深度學習系統工程師俞星凱從零開始構建了一個輕量級 vLLM 實現 ——Nano-vLLM ，將代碼簡化到了 1200 行。
目前，該項目在 GitHub 上收獲了 200 多的 Star 。

GitHub 地址：https://github.com/GeeeekExplorer/nano-vllm/tree/main
具體來講， Nano-vLLM 具有以下三個核心功能：
一是， Fase 離線推理。推理速度與 vLLM 相當。
二是，易讀代碼庫。實現非常簡潔， Python 代碼減少到了 1200 行以下。
三是，優化套件。提供 Prefix 緩存、Torch 編譯、CUDA 計算圖等功能。
俞星凱在基準測試中采用了以下測試配置：

硬件：RTX 4070
模型：Qwen3-0.6B
總請求：256 個序列
輸入長度：100–1024 tokens 之間隨機采樣
輸出長度：100–1024 tokens 之間隨機采樣

基準測試結果如下表所示， Nano-vLLM 與 vLLM 的輸出 token 相同，時間略長，推理速度（吞吐量）稍遜一點點。整體而言，二者表現相當。

作者簡介
Nano-vLLM 開發者俞星凱目前就職于 DeepSeek ，參與過 DeepSeek-V3 和 DeepSeek-R1 的開發工作。

有意思的是，根據其 GitHub 主頁，他還曾開發過一個植物大戰僵尸 Qt 版，該項目也已經收獲了 270 多星。此外，由于畢業于南京大學，他還曾參與了不少南京大學的計算機項目，包括南京大學計算機圖形學繪圖系統、南京大學分布式系統 Raft 算法最簡實現、南京大學操作系統 OSLab 等。
而根據其 LinkedIn 頁面可知，他曾先后在騰訊、幻方（DeepSeek 母公司）和字節跳動實習過。 2023 年后入職 DeepSeek 成為深度學習系統工程師。

你是 vLLM 用戶嗎？會考慮嘗試 Nano-vLLM 嗎？