導致DeepSeek價格暴降,「稀疏注意力機制」,到底是個啥?

導致DeepSeek價格暴降,「稀疏注意力機制」,到底是個啥?

文章圖片

導致DeepSeek價格暴降,「稀疏注意力機制」,到底是個啥?

文章圖片

導致DeepSeek價格暴降,「稀疏注意力機制」,到底是個啥?
9月30日 , DeepSeek發新版本了 。
大家都注意到了吧 , 這個3.2-Exp跟上一版本(v3.1-terminus)相比 , 模型跑分不但不升 , 反而略有下降 。
但是卻擋不住一眾MaaS服務商第一時間把這個模型上架了 。



為啥 , 只因這個版本可以讓推理成本暴降!
降成本的核心奧秘就是該版本采用了「DeepSeek 稀疏注意力機制」 。
下面這個圖很直觀 , 3.1版本成本隨著token長度是線性上升的 , 而3.2版則是陡升之后迅速折平 , 成本隨著token長度變化極小 。
尤其Decode , 幾乎是平的 。
【導致DeepSeek價格暴降,「稀疏注意力機制」,到底是個啥?】
憑借這種巨大的成本優化 , DeepSeek也有了降價的底氣 , 官方API價格直接砍半 。
那么 , 這個叫做“稀疏注意力機制”的成本優化利器 , 究竟是個啥?
1分鐘帶你簡單了解「稀疏注意力機制」在Transformer架構的大模型世界里 , 「注意力機制」是最重要的一環 。
它就像人類大腦的“專注力” , 決了定模型在處理一段話時 , 應該把腦力花在哪兒 。
1、什么是注意力機制?
想象一下你是個售前 , 正在開Q3季度總結會 , 這場會有30個人發言(老板、產品經理、售前、研發、銷售) , 會議討論的核心議題是——如何提升Q4業績 。
但有些人可能是AD/HD患者 , 他沒法專注在會議任務上 , 容易被外界刺激分散注意力 , 比如開著會 , 刷到微信群里有人閑聊 , 他也要回一句 。
甚至看到窗外有美女走過 , 他就心馳神往 , 這就是缺乏”注意力“ 。
而正常人會全程關注所有與會者的發言 , 并找到跟會議主題相關的重點內容 , 寫出會議總結 , 這就是“注意力” 。
在Transformer大模型里 , 注意力機制也是類似的:每一個token在處理時都會去“關注”上下文中所有其他詞 , 計算它們之間的關系 , 從而理解語義、推斷含義 。
2、傳統注意力機制:人人都要聽 , 太費力!
傳統的注意力機制屬于 “全量注意力(Dense Attention)” 。
就像開會時 , 必須認真聽每個人說的話 , 哪怕是坐在角落里點外賣的小王、正在咬耳朵閑聊的小李和小張 , 你也要分析他的話對你有沒有用 。
注意力是夠集中了 , 但是太累、太慢、太費神 。
放到大模型推理上 , 就意味著更多的算力消耗 。
稀疏注意力:只聽重要的人!
稀疏注意力(Sparse Attention)就機靈多了:
它讓模型不再對所有詞都關注 , 而是有選擇地跳過不重要的詞 。
就好比開會的時候 , 你不需要記住每個人的每句話 , 于是你會有選擇地聽:重點關注老板、產品經理和研發骨干說的話 , 至于銷售的畫餅你完全不關注 。
這樣一來↓
不用每個詞都計算關系 , 計算量大幅減少;顯存、算力消耗顯著降低;
效率自然就飆升 。
DeepSeek的獨家妙招:更聰明地「選人」
稀疏注意力機制不是DeepSeek首創的 , 但是很多早期的稀疏注意力方法只是盲目地跳過一部分計算 , 可能會漏掉重要信息 。
就好比開會的時候 , 售前就是對銷售們有成見 , 不管銷售的發言有沒有道理 , 一律”左耳進右耳出“ , 結果 , 可能錯失了一個大單 。
而DeepSeek這次的DSA就比較聰明了:它使用特殊的策略 , 讓模型自己學會哪些詞值得關注、哪些詞可以忽略 。
比如:

對長文本 , 優先關注關鍵詞、句首、句尾等信息密集的部分;
對結構化數據 , 優先關注核心字段;
對代碼、推理等任務 , 則關注邏輯節點之間的聯系 。
好比售前開會 , 聽銷售發言時 , 優先關注那些“歷史業績好的、“有個方案明天就要”次數少的、“客戶已搞定”兌現多的 。
這種「有策略的稀疏」 , 讓模型既保留了理解力 , 又大大減少了無用計算 。
正因為跳過了大量不必要的計算 , DSA帶來了三個立竿見影的好處:
訓練更快:少算90%的“廢話” , 大模型可以更快迭代;
推理更便宜:同樣的GPU , 能跑更多請求、處理更長文本;
可擴展性更強:支持更長的上下文、更大的模型規模 。
……
所以 , 優秀的售前 , 用“稀疏注意力機制”支持一部分靠譜銷售 , 既能高效產出方案、完成技術支持工作 , 又不會過得很卷 , 還少背鍋 。
but , 這種機制 , 對大模型有效 , 但對售前來講 , 可操作性就有限了 , 就在昨天 , 還有一個售前兄弟吐槽說:
現在因為項目少 , 售前的話語權進一步被削弱了
公司要求→銷售拿過來的機會 , 售前不能說不靠譜、研發不能說不靠譜 , 如果要說不靠譜、拒絕銷售 , 必須開會討論……
好吧 , 大家都加油 。
關于DeepSeek稀疏注意力機制的詳細正經解讀 , 大家可以去看論文↓
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
最后祝?大家雙節快樂!

    推薦閱讀