DeepSeek公布全新論文,梁文鋒署名

DeepSeek公布全新論文,梁文鋒署名

文章圖片


【TechWeb】1月13日消息 , DeepSeek最新公布題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》全新論文 , 提出“條件記憶”(Conditional Memory)作為對主流條件計算(MoE)范式的互補性稀疏維度 , 旨在解決通過動態計算模擬知識檢索的低效問題 。
【DeepSeek公布全新論文,梁文鋒署名】該論文作者署名包括梁文鋒等DeepSeek團隊成員 , 還有北京大學王選所趙東巖、張輝帥團隊 。
論文鏈接:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
提出“U形擴展定律”
論文稱 , 當前大語言模型主要依靠混合專家(MoE)實現條件計算 , 通過稀疏激活參數擴展模型容量 。 然而 , 語言信號具有內在異質性:一方面需要深度動態計算進行組合推理 , 另一方面存在大量局部、靜態、高度模式化的文本(如命名實體、公式化表達) 。 傳統Transformer缺乏原生知識查找原語 , 迫使模型通過計算模擬檢索 , 例如解析一個多詞實體需消耗多個底層注意力與前饋網絡層 , 本質上是昂貴地運行時重建靜態查找表 , 浪費了本可用于高層推理的序列深度 。
為匹配語言的雙重特性 , 研究團隊主張引入條件記憶(Conditional Memory)這一互補稀疏軸:條件計算稀疏激活參數以處理動態邏輯 , 條件記憶則依賴稀疏查找操作檢索靜態嵌入以獲取固定知識 。
同時 , 論文給出了該條件記憶具體實現方案Engram模塊 。
為量化Engram與MoE之間的協同 , 論文提出稀疏性分配問題 。 這也是該論文的核心 。
團隊設計了一個嚴格的實驗框架:固定總參數量和每token的激活參數量(也就是計算量) , 然后在MoE專家和Engram記憶之間重新分配“閑置參數”預算 。
實驗表明 , 純MoE或純Engram主導均非最優 , 二者存在結構互補性:
MoE主導缺乏靜態模式的專用內存 , 迫使通過深度計算低效重建 。
Engram主導則失去條件記憶能力 , 損害需要動態上下文推理的任務 。
最終 , 實驗揭示了一條“U形擴展定律”(如下圖):在固定參數與FLOPs下 , 將稀疏參數預算的約20%-25%重新分配給Engram可獲得最佳性能 。 例如在10B參數規模下 , 驗證損失從1.7248降至1.7109 。
基于上述分配定律 , 論文團隊訓練了Engram-27B模型(總參數26.7B , 激活參數3.8B) , 通過將MoE-27B的專家數從72減至55 , 并將釋放的參數重新分配給5.7B參數的Engram內存(分配比ρ=74.3%) 。 在預訓練后 , 相比同參數同FLOPs的MoE-27B基線 , Engram-27B在知識與推理、通用推理、代碼與數學等多個領域均取得顯著提升 。
具體提升包括:
知識與推理:MMLU +3.0 , CMMLU +4.0 , MMLU-Pro +1.8 。
通用推理:BBH +5.0 , ARC-Challenge +3.7 , DROP +3.3 。
代碼與數學:HumanEval +3.0 , GSM8K +2.2 , MATH +2.4 。
論文總結認為 , Engram不僅提升知識檢索能力 , 更在通用推理、代碼與數學領域帶來更大增益 。 機制上 , 它通過減輕早期層靜態重建任務有效“加深”網絡 , 并釋放注意力容量以聚焦全局上下文與復雜推理 , 從而顯著增強長上下文能力 。 其確定性尋址支持存儲與計算解耦 , 為下一代稀疏模型提供了基礎設施感知的高效設計范式 。
DeepSeek-V4大模型被曝春節前后發布
值得注意的是 , 論文結尾明確提到:我們將條件記憶視為下一代稀疏模型不可或缺的建模原語 。
就在前天 , 有外媒報道 , DeepSeek將于2月發布新一代旗艦AI模型DeepSeek V4 , 該模型主打強勁的代碼生成能力 , 是DeepSeek繼2024年12月發布的V3模型之后的最新版本 。
報道援引知情人士消息稱 , DeepSeek員工基于公司內部基準開展的初步測試顯示 , 該最新模型在代碼生成領域的表現優于Anthropic、Claude、生成式預訓練變換器系列(OpenAI GPT)等現有主流模型 。 DeepSeek計劃在2025年春節前后發布V4版本 。
因此 , 論文中的提到的“條件記憶”(Conditional Memory)被業內猜測將極大可能應用于DeepSeek-V4大模型中 。
自2024年1月20日 , DeepSeek發布R1模型 , 恰逢春節前夕 , 其卓越的表現引發了全球AI界的廣泛關注以來 , DeepSeek團隊持續不斷給業內帶來驚喜 , 2025年下半年幾乎月月有發布 。
2025年末 , DeepSeek還發布了題為《Manifold-Constrained Hyper-Connections》的研究論文 , 該技術成功解決了此前阻礙大模型規模擴展的核心瓶頸——訓練穩定性問題 。 通過在超連接技術中引入數學上的“流形約束” , DeepSeek實現了27B模型訓練中信號放大從近3000倍驟降至1.6倍的驚人效果 。 為大模型架構設計開辟了一條全新的技術路徑 。
2025年12月1日 , DeepSeek發布了兩款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale , 并開源 。 DeepSeek-V3.2 達到了 GPT-5 的水平 , DeepSeek-V3.2-Speciale在主流推理基準測試上的性能表現媲美Gemini-3.0-Pro 。
2025年11月 , DeepSeek在Hugging Face平臺正式開源了DeepSeek-Math-V2模型 , 這是全球首個達到國際數學奧林匹克競賽金牌水平的開源數學模型 。 該模型基于DeepSeek-V3.2-Exp-Base開發 。
2025年10月 , DeepSeek發布3B參數開源OCR模型 , DeepSeek-OCR模型創新性地提出“上下文光學壓縮”技術 , 將長文本轉換為圖像進行高效壓縮處理 , 大幅降低大模型輸入所需的Token數量 , 從而顯著降低大模型處理長文檔時的計算開銷 , 該模型迅速在AI領域獲得了廣泛關注和討論 。
2025年9月 , DeepSeek正式發布DeepSeek-V3.2-Exp模型 , 并宣布API調用價格大幅降低 , 輸入百萬Token價格降至2毛錢 , 輸出價格直降75% , 被業界稱為“價格屠夫”再揮刀 。
蓄力這么久 , 業內認為 , DeepSeek-V4版本的推出預計將對當前的AI競爭格局產生重大影響 , 期待其進一步鞏固DeepSeek在全球人工智能領域的領先地位 。

    推薦閱讀