全球最強推理引擎還快2倍,斯坦福、普林斯頓破解大模型串行魔咒

全球最強推理引擎還快2倍,斯坦福、普林斯頓破解大模型串行魔咒

文章圖片

全球最強推理引擎還快2倍,斯坦福、普林斯頓破解大模型串行魔咒

文章圖片

全球最強推理引擎還快2倍,斯坦福、普林斯頓破解大模型串行魔咒

文章圖片

全球最強推理引擎還快2倍,斯坦福、普林斯頓破解大模型串行魔咒


機器之心編輯部

在大語言模型推理領域 , 雖然「推測解碼」(Speculative Decoding , SD)已成為加速生成的標準配置 , 但它依然存在一個致命弱點: drafting(草擬)和 verification(驗證)之間必須串行進行 。

近日 , 來自斯坦福、普林斯頓大學和 Together AI 的研究團隊提出 SSD 框架及其優化算法 SAGUARO , 成功實現了草擬和驗證的并行化 。



論文鏈接:https://arxiv.org/pdf/2603.03251 GitHub 鏈接:https://github.com/tanishqkumar/ssd
據介紹 , 該算法推理速度比世界上最強大的推理引擎都快 2 倍 。



「推測性推測解碼」(Speculative Speculative Decoding , 簡稱 SSD) , 是一種新型的推測性解碼 (SD) 。 在傳統的 SD 中 , 一個小且快速的模型會先猜測大且慢的模型可能生成的下幾個 token , 然后大模型通過一次前向傳播驗證這些猜測 , 草擬和驗證是依次進行的 。

而在 SSD 中 , 這兩個過程是并行發生的 , 完全消除了運行小模型的開銷 。



并行執行草擬和驗證是很棘手的 , 因為你無法在某事物存在之前對其進行驗證 , 也無法推測你不知道的前綴之外的內容 。 在 SSD 中 , 研究者預先設定驗證結果 , 并在獨立硬件上進行驗證的同時進行推測 。 這樣一來 , 如果其中一種驗證結果出現 , 推測就能立即生效 。

【全球最強推理引擎還快2倍,斯坦福、普林斯頓破解大模型串行魔咒】雖然論文對算法進行了詳盡的理論描述 , 但在實踐中 , 研究者大部分時間都花在如何讓它與現代推理引擎中各種優化技術(Paged Attention、Prefix Caching、CUDAGraphs 等)協同工作上 。

作者 Tanishq Kumar 表示 , 「真的 , 我花在了解 CPU/GPU 同步問題上的時間遠遠超過了我的預期」 。



要使新算法達到 SOTA 水平 , 需要精心設計系統和算法 。 總的來說 , SSD 推動了延遲 - 吞吐量帕累托前沿的發展 , 其方式與普通推測解碼推進標準自回歸算法的發展非常相似 。



Tanishq Kumar 稱:「我對快速推理感到興奮 , 因為我非常關注的一個人工智能工作負載是超長時域推理 。 想象一下 , 一個擁有大量 B200 的數據中心完全用于運行一個模型 , 該模型需要處理數十億個 token 來證明 P 與 NP 的區別 。 在這種情況下 , 延遲減半就意味著可以進行雙倍深度的思考!」



SSD 如何實現草擬與驗證并行?

現代 AI 對推理速度有著極高的要求 。 然而 , 標準的語言模型解碼是按順序生成單個 token , 未能利用現代硬件上可用的大規模并行計算 。

推測性解碼(SD)是一種為了解決這個問題而引入的技術 。 它使用一個快速的「草擬模型」來預測目標模型可能將生成的下幾個 token , 而不是從目標模型中進行緩慢的自回歸采樣 , 然后通過目標模型的并行前向傳播驗證這些 token 。 這一驗證是按照一個算法進行的 , 確保生成的 token 是從目標模型的分布中采樣的 。

在每次驗證中 , 目標模型決定接受多少個推測的 token , 并采樣一個額外的獎勵 token , 該 token 跟隨所有已接受的 token 。 盡管推測性解碼有效 , 但它本身仍受限于串行依賴:必須等待當前驗證完成后 , 才能開始下一輪推測 。

那么 , 我們能否消除草擬和驗證之間的順序依賴呢?

研究者引入推測性推測解碼(SSD) , 這是一個旨在并行化草擬和驗證的統一框架 。

在 SD 中 , 草擬模型必須等待驗證完成 , 才能開始推測下一輪 , 而在 SSD 中 , 草擬模型會預測最可能的驗證結果 , 并在驗證進行的同時 , 針對所有可能的結果進行并行的提前推測 。 如果這些預準備的結果中的任何一個發生 , 草擬模型可以立即將預推測的 token 發送給驗證器 , 從而避免草擬階段的開銷 。 與普通的推測性解碼一樣 , SSD 也是無損的 。 不同之處在于 , SSD 的草擬模型部署在與目標模型不同的硬件上 。

優化 SSD 算法主要面臨三大挑戰 。

首先 , 草擬模型必須準確預測驗證結果 , 這不僅包括接受了多少個推測的 Token , 還包括采樣的獎勵 token 。 其次 , 推測器的接受率與其預測驗證結果的能力之間存在微妙的權衡 , 必須謹慎處理以最大化加速比 。 此外 , 任何 SSD 算法都必須具備處理預測失敗的回退策略 , 因為在大批處理量和高隨機性(Temperature)下 , 預測失敗會頻繁發生 , 若處理不當 , 即時補救的開銷將抵消異步帶來的收益 。

為此 , 他們推出了 Saguaro , 這是一個優化的 SSD 算法 , 針對上述挑戰進行了定向優化 。

將預測驗證結果的問題轉化為約束優化問題 , 并引入了一種技術 , 利用最可能的草擬 logits 來預測獎勵 token , 準確率最高可達 90% 。 識別了預測準確性與生成高質量推測之間的張力 , 并開發了一種能夠平衡二者的采樣算法 。 探討了處理預測失敗的多種策略 , 發現最優回退策略隨批處理大小而異 。 通過采用這些優化 , 盡管 Saguaro 在處理每個批次元素時進行了更多計算(同時解碼多種可能的結果) , 其表現仍比標準 SD 高出 20% 。
總的來看 , Saguaro 相比優化的推測性解碼實現了高達 2 倍的加速 , 相比自回歸生成實現了高達 5 倍的加速 , 并在各種批處理規模下均顯著提升了吞吐量與延遲的帕累托前沿 。

不過 , 該領域仍有許多值得探索的方向 。 SSD 可以自然地與 EAGLE 技術以及 token-tree 推測(Token-tree speculation)相結合 , 但這種聯合設計及其權衡空間在很大程度上尚未被發掘 。

此外 , 通過擴展草擬設備的數量以及推測緩存 , 延遲可以進一步減少 , 盡管回報最終會遞減 。 最后 , 在集群層面跨多個目標模型部署共享推測端點——類似于預填充-解碼分解)——是另一個自然的研究方向 。

    推薦閱讀