1200行代碼逆襲!DeepSeek工程師開源輕量級vLLM,吞吐量逼近原版

1200行代碼逆襲!DeepSeek工程師開源輕量級vLLM,吞吐量逼近原版

文章圖片

【1200行代碼逆襲!DeepSeek工程師開源輕量級vLLM,吞吐量逼近原版】1200行代碼逆襲!DeepSeek工程師開源輕量級vLLM,吞吐量逼近原版

文章圖片

機器之心報道
機器之心編輯部
開源社區的人應該對 vLLM 不陌生 , 它是一個由加州大學伯克利分校團隊開發的高性能、開源 LLM 推理和服務引擎 , 核心目標是提升 LLM 的推理速度(吞吐量)和資源利用率(尤其是內存) , 同時兼容 Hugging Face 等流行模型庫 。
簡單來說 , vLLM 能讓 GPT、Mistral、LLaMA 等主流模型系列跑得更快、消耗更少資源 , 取得這些效果的關鍵是其創新的注意力機制實現方案 ——PagedAttention 。
近日 , DeepSeek AI 研究者、深度學習系統工程師俞星凱從零開始構建了一個輕量級 vLLM 實現 ——Nano-vLLM , 將代碼簡化到了 1200 行 。
目前 , 該項目在 GitHub 上收獲了 200 多的 Star 。

GitHub 地址:https://github.com/GeeeekExplorer/nano-vllm/tree/main
具體來講 , Nano-vLLM 具有以下三個核心功能:
一是 , Fase 離線推理 。 推理速度與 vLLM 相當 。
二是 , 易讀代碼庫 。 實現非常簡潔 , Python 代碼減少到了 1200 行以下 。
三是 , 優化套件 。 提供 Prefix 緩存、Torch 編譯、CUDA 計算圖等功能 。
俞星凱在基準測試中采用了以下測試配置:

  • 硬件:RTX 4070
  • 模型:Qwen3-0.6B
  • 總請求:256 個序列
  • 輸入長度:100–1024 tokens 之間隨機采樣
  • 輸出長度:100–1024 tokens 之間隨機采樣
基準測試結果如下表所示 , Nano-vLLM 與 vLLM 的輸出 token 相同 , 時間略長 , 推理速度(吞吐量)稍遜一點點 。 整體而言 , 二者表現相當 。

作者簡介
Nano-vLLM 開發者俞星凱目前就職于 DeepSeek , 參與過 DeepSeek-V3 和 DeepSeek-R1 的開發工作 。

有意思的是 , 根據其 GitHub 主頁 , 他還曾開發過一個植物大戰僵尸 Qt 版 , 該項目也已經收獲了 270 多星 。 此外 , 由于畢業于南京大學 , 他還曾參與了不少南京大學的計算機項目 , 包括南京大學計算機圖形學繪圖系統、南京大學分布式系統 Raft 算法最簡實現、南京大學操作系統 OSLab 等 。
而根據其 LinkedIn 頁面可知 , 他曾先后在騰訊、幻方(DeepSeek 母公司)和字節跳動實習過 。 2023 年后入職 DeepSeek 成為深度學習系統工程師 。

你是 vLLM 用戶嗎?會考慮嘗試 Nano-vLLM 嗎?

    推薦閱讀