DeepSeek發布稀疏注意力技術降低AI推理成本

DeepSeek發布稀疏注意力技術降低AI推理成本

為什么ChatGPT在長對話中會變慢?原因在于一個基礎數學挑戰:處理長文本序列需要巨大的計算資源 , 即使已經部署了效率優化技巧 。 雖然美國科技巨頭可以投入更多硬件來解決這個問題 , 但受到出口限制無法穩定獲得先進AI芯片的中國AI公司深度求索(DeepSeek) , 有著更強的動機從更少的硅芯片中榨取更多性能 。
周一 , 深度求索發布了其最新模擬推理大語言模型的實驗版本DeepSeek-V3.2-Exp , 引入了被稱為\"DeepSeek稀疏注意力\"(DSA)的技術 。 這是該公司對一項可能已在世界上一些最知名AI模型中使用的計算技術的實現 。 OpenAI在2019年首創了稀疏Transformer , 并使用這項技術構建了GPT-3 , 而谷歌研究院在2020年發表了使用類似概念的\"Reformer\"模型研究 。 (西方AI公司目前在其最新模型中使用稀疏注意力的全部程度仍未公開 。 )
盡管稀疏注意力多年來一直是已知的方法 , 但深度求索聲稱其版本\"首次實現了細粒度稀疏注意力\" , 并將API價格降低了50%以展示效率提升 。 但要更好地理解DeepSeek v3.2的顯著之處 , 有必要回顧一下AI發展歷史 。
深度求索在1月份引起轟動 , 其R1模擬推理模型據報道在僅花費600萬美元訓練成本的情況下達到了OpenAI的o1性能水平 , 其聊天應用一度登頂iPhone應用商店榜首 , 超越了ChatGPT 。 所有目光都聚焦在這家讓美國頂尖AI實驗室感受到競爭壓力的公司身上 。
注意力瓶頸
【DeepSeek發布稀疏注意力技術降低AI推理成本】在AI中 , \"注意力\"是指一種軟件技術 , 用于確定文本中哪些詞語與理解彼此最相關 。 這些關系映射出上下文 , 而上下文構建了語言的含義 。 例如 , 在句子\"銀行提高了利率\"中 , 注意力幫助模型確定\"銀行\"在金融語境中與\"利率\"相關 , 而非河岸語境 。 通過注意力 , 概念關系被量化為存儲在神經網絡中的數字 。 注意力還控制著AI大語言模型在生成回應的每個詞時如何選擇\"最重要\"的信息 。
用機器計算上下文很復雜 , 直到GPU等能夠并行計算這些關系的芯片達到一定能力水平后 , 才在規模化應用中變得實用 。 即便如此 , 2017年的原始Transformer架構以一種暴力破解的方式檢查提示詞中每個詞與其他所有詞的關系 。 因此 , 如果向AI模型輸入1000個詞的提示 , 就會產生1000×1000次比較 , 即需要計算100萬個關系 。 對于10000個詞 , 這變成了1億個關系 。 成本呈二次方增長 , 這為處理長對話創造了根本性瓶頸 。
盡管OpenAI可能在GPT-5中使用了某些稀疏注意力技術 , 但長對話仍然會遭受性能損失 。 每次向ChatGPT提交新回應時 , 其核心的AI模型都會重新處理整個對話歷史的上下文比較 。
當然 , 原始Transformer模型的研究者將其設計用于相對較短序列的機器翻譯(可能幾百個Token , Token是代表詞語的數據塊) , 在這種情況下二次方注意力是可管理的 。 當人們開始擴展到數千或數萬個Token時 , 二次方成本變得令人望而卻步 。
稀疏注意力的工作方式不同 。 它不是檢查每個詞與每個詞的關系 , 而是只檢查模型確定最相關的詞關系子集 。 例如 , 在處理文檔中第5000個詞時 , 模型可能只檢查其與100個精心選擇的早期詞語的關系 , 而不是所有4999個前面的詞語 。
深度求索的模型通過訓練獲得了確定哪些關系優先的能力 , 使用被深度求索稱為\"閃電索引器\"的技術 。 如深度求索關于新模型的論文所述 , 這個小型神經網絡組件對詞對之間的相關性進行評分 , 并為每個詞選擇前2048個最重要的連接 , 盡管論文沒有完全解釋這個索引器如何做出決策 。 深度求索聲稱其實現可以識別哪些連接可以跳過 , 而不會降低模型對整體文本的理解 。
早期基準測試顯示前景
DeepSeek-V3.2-Exp建立在該公司之前的V3.1-Terminus模型基礎上 , 但融入了DeepSeek稀疏注意力 。 根據該公司的基準測試 , 實驗模型即使在使用稀疏注意力的情況下 , 性能也與其前身相當 。
值得注意的是 , 與OpenAI和Anthropic的高端AI模型不同 , 該版本包含在MIT許可證下的開源組件和開放權重 , 允許其他研究者在此基礎上構建工作 。
TechCrunch報道稱 , 深度求索的初步測試發現 , 在長上下文情況下 , API成本可以減少多達一半 。 然而 , 這些基準測試來自深度求索的自己測試 , 第三方研究者還沒有時間獨立驗證性能聲明或驗證效率改進 。 但如果研究結果得到證實 , 稀疏注意力技術的改進可能會隨著時間推移大幅降低AI推理成本 。
Q&A
Q1:DeepSeek稀疏注意力技術是什么?
A:DeepSeek稀疏注意力(DSA)是一種計算技術 , 不同于傳統方法檢查每個詞與每個詞的關系 , 它只檢查模型確定最相關的詞關系子集 。 通過\"閃電索引器\"組件為每個詞選擇前2048個最重要的連接 , 從而大幅減少計算量 。
Q2:為什么ChatGPT在長對話中會變慢?
A:原因在于傳統Transformer架構采用二次方注意力機制 , 需要檢查每個詞與其他所有詞的關系 。 1000個詞需要100萬次比較 , 10000個詞需要1億次比較 , 成本呈二次方增長 , 創造了處理長對話的根本性瓶頸 。
Q3:DeepSeek稀疏注意力技術能帶來多大的成本節?。 ?
A:根據深度求索的初步測試 , 在長上下文情況下API成本可以減少多達50% 。 該公司已將API價格降低50%來展示效率提升 , 不過這些基準測試來自深度求索自己的測試 , 還需要第三方研究者獨立驗證 。


    推薦閱讀