DeepSeek公布全新論文，梁文鋒署名

2026-04-26

文章圖片

【TechWeb】1月13日消息， DeepSeek最新公布題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》全新論文，提出“條件記憶”（Conditional Memory）作為對主流條件計算（MoE）范式的互補性稀疏維度，旨在解決通過動態計算模擬知識檢索的低效問題。
【DeepSeek公布全新論文，梁文鋒署名】該論文作者署名包括梁文鋒等DeepSeek團隊成員，還有北京大學王選所趙東巖、張輝帥團隊。
論文鏈接：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
提出“U形擴展定律”
論文稱，當前大語言模型主要依靠混合專家（MoE）實現條件計算，通過稀疏激活參數擴展模型容量。然而，語言信號具有內在異質性：一方面需要深度動態計算進行組合推理，另一方面存在大量局部、靜態、高度模式化的文本（如命名實體、公式化表達）。傳統Transformer缺乏原生知識查找原語，迫使模型通過計算模擬檢索，例如解析一個多詞實體需消耗多個底層注意力與前饋網絡層，本質上是昂貴地運行時重建靜態查找表，浪費了本可用于高層推理的序列深度。
為匹配語言的雙重特性，研究團隊主張引入條件記憶（Conditional Memory）這一互補稀疏軸：條件計算稀疏激活參數以處理動態邏輯，條件記憶則依賴稀疏查找操作檢索靜態嵌入以獲取固定知識。
同時，論文給出了該條件記憶具體實現方案Engram模塊。
為量化Engram與MoE之間的協同，論文提出稀疏性分配問題。這也是該論文的核心。
團隊設計了一個嚴格的實驗框架：固定總參數量和每token的激活參數量（也就是計算量），然后在MoE專家和Engram記憶之間重新分配“閑置參數”預算。
實驗表明，純MoE或純Engram主導均非最優，二者存在結構互補性：
MoE主導缺乏靜態模式的專用內存，迫使通過深度計算低效重建。
Engram主導則失去條件記憶能力，損害需要動態上下文推理的任務。
最終，實驗揭示了一條“U形擴展定律”（如下圖）：在固定參數與FLOPs下，將稀疏參數預算的約20%-25%重新分配給Engram可獲得最佳性能。例如在10B參數規模下，驗證損失從1.7248降至1.7109 。
基于上述分配定律，論文團隊訓練了Engram-27B模型（總參數26.7B ，激活參數3.8B），通過將MoE-27B的專家數從72減至55 ，并將釋放的參數重新分配給5.7B參數的Engram內存（分配比ρ=74.3%）。在預訓練后，相比同參數同FLOPs的MoE-27B基線， Engram-27B在知識與推理、通用推理、代碼與數學等多個領域均取得顯著提升。
具體提升包括：
知識與推理：MMLU +3.0 ， CMMLU +4.0 ， MMLU-Pro +1.8 。
通用推理：BBH +5.0 ， ARC-Challenge +3.7 ， DROP +3.3 。
代碼與數學：HumanEval +3.0 ， GSM8K +2.2 ， MATH +2.4 。
論文總結認為， Engram不僅提升知識檢索能力，更在通用推理、代碼與數學領域帶來更大增益。機制上，它通過減輕早期層靜態重建任務有效“加深”網絡，并釋放注意力容量以聚焦全局上下文與復雜推理，從而顯著增強長上下文能力。其確定性尋址支持存儲與計算解耦，為下一代稀疏模型提供了基礎設施感知的高效設計范式。
DeepSeek-V4大模型被曝春節前后發布
值得注意的是，論文結尾明確提到：我們將條件記憶視為下一代稀疏模型不可或缺的建模原語。
就在前天，有外媒報道， DeepSeek將于2月發布新一代旗艦AI模型DeepSeek V4 ，該模型主打強勁的代碼生成能力，是DeepSeek繼2024年12月發布的V3模型之后的最新版本。
報道援引知情人士消息稱， DeepSeek員工基于公司內部基準開展的初步測試顯示，該最新模型在代碼生成領域的表現優于Anthropic、Claude、生成式預訓練變換器系列（OpenAI GPT）等現有主流模型。 DeepSeek計劃在2025年春節前后發布V4版本。
因此，論文中的提到的“條件記憶”（Conditional Memory）被業內猜測將極大可能應用于DeepSeek-V4大模型中。
自2024年1月20日， DeepSeek發布R1模型，恰逢春節前夕，其卓越的表現引發了全球AI界的廣泛關注以來， DeepSeek團隊持續不斷給業內帶來驚喜， 2025年下半年幾乎月月有發布。
2025年末， DeepSeek還發布了題為《Manifold-Constrained Hyper-Connections》的研究論文，該技術成功解決了此前阻礙大模型規模擴展的核心瓶頸——訓練穩定性問題。通過在超連接技術中引入數學上的“流形約束” ， DeepSeek實現了27B模型訓練中信號放大從近3000倍驟降至1.6倍的驚人效果。為大模型架構設計開辟了一條全新的技術路徑。
2025年12月1日， DeepSeek發布了兩款新模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale ，并開源。 DeepSeek-V3.2 達到了 GPT-5 的水平， DeepSeek-V3.2-Speciale在主流推理基準測試上的性能表現媲美Gemini-3.0-Pro 。
2025年11月， DeepSeek在Hugging Face平臺正式開源了DeepSeek-Math-V2模型，這是全球首個達到國際數學奧林匹克競賽金牌水平的開源數學模型。該模型基于DeepSeek-V3.2-Exp-Base開發。
2025年10月， DeepSeek發布3B參數開源OCR模型， DeepSeek-OCR模型創新性地提出“上下文光學壓縮”技術，將長文本轉換為圖像進行高效壓縮處理，大幅降低大模型輸入所需的Token數量，從而顯著降低大模型處理長文檔時的計算開銷，該模型迅速在AI領域獲得了廣泛關注和討論。
2025年9月， DeepSeek正式發布DeepSeek-V3.2-Exp模型，并宣布API調用價格大幅降低，輸入百萬Token價格降至2毛錢，輸出價格直降75% ，被業界稱為“價格屠夫”再揮刀。
蓄力這么久，業內認為， DeepSeek-V4版本的推出預計將對當前的AI競爭格局產生重大影響，期待其進一步鞏固DeepSeek在全球人工智能領域的領先地位。

推薦閱讀

上一篇：馬斯克173分鐘談話流出：白領死得最快，未來的貨幣是電

下一篇：Apple pencil平替哪款最好？推薦十大性價比蘋果pencil平價替代！