最火、最全的Agent記憶綜述，NUS、人大、復旦、北大等聯合出品

2026-01-16 蛋雞

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

在過去兩年里，記憶（Memory）幾乎從 “可選模塊” 迅速變成了 Agent 系統的 “基礎設施”：對話型助手需要記住用戶習慣與歷史偏好；代碼 / 軟件工程 Agent 需要記住倉庫結構、約束與修復策略；深度研究型 Agent 需要記住已閱讀的證據鏈、關鍵假設與失敗路徑，沒有 memory 的智能體難以跨任務保留有效經驗，難以穩定維護用戶偏好與身份設定，也難以在長周期協作中保持行為一致、避免反復犯同樣的錯誤。與此同時 Memory 概念在迅速膨脹、也在迅速碎片化：很多論文都聲稱自己在做 “agent memory” ，但實現方式、目標假設、評價協議差別巨大，多術語并行又進一步模糊了邊界。
在這樣的背景下，來自新加坡國立大學、中國人民大學、復旦大學、北京大學等頂級學術機構共同撰寫并發布了百頁綜述《Memory in the Age of AI Agents: A Survey》，嘗試用統一視角為快速擴張、卻日益碎片化的 “Agent Memory” 重新梳理技術路徑。

論文鏈接： https://arxiv.org/abs/2512.13564 Github 鏈接： https://github.com/Shichun-Liu/Agent-Memory-Paper-List綜述首先指出傳統的 “長 / 短期記憶” 二分法，已經不足以描述當代系統里更復雜的結構形態與動態機制：有的記憶是顯式 token 存儲，有的寫進參數，有的駐留在潛在狀態；有的服務于事實一致性，有的服務于經驗遷移，有的服務于單次任務的工作臺管理 —— 如果繼續用簡單時間尺度切分，就很難真正解釋這些差異。
基于此，該綜述提出一個統一的分析框架：Forms–Functions–Dynamics（三角框架）。它試圖分別回答三類核心問題：

記憶以什么形式存在（Forms）——What Carries Memory? 是外部 token、參數，還是潛在狀態？
記憶解決什么問題（Functions）——Why Agents Need Memory? 它服務于事實一致、經驗成長，還是任務內工作記憶？
記憶如何運轉與演化（Dynamics）——How Memory Evolves? 它如何形成、如何被維護與更新、又如何在決策時被檢索與利用？
概念辨析：Agent Memory 到底
和 LLM Memory、RAG、Context Engineering 有何不同？
在大量工程實踐中， “Memory” 這個詞往往被迅速簡化為幾個具體實現：一個向量數據庫加上相似度檢索，或者干脆等同為更長的上下文窗口、更大的 KV cache 。在這種理解下，只要模型 “還能看到過去的信息” ，系統似乎就已經具備了記憶能力。然而，綜述明確指出：這些技術與 Agent Memory 確實存在交集，但在研究對象和問題層級上并不等價。

Agent Memory：持久的、可自我演化的 “認知狀態”
Agent Memory 關注的是智能體持續維持的認知狀態，它不僅 “存” ，還要能在交互中不斷更新、整合、糾錯、抽象，并跨任務保持一致性。獨特性在于維護一個 persistent and self-evolving cognitive state ，并把事實與經驗整合在一起。 Agent Memory 關心的是 “智能體知道什么、經歷過什么，以及這些東西如何隨時間變化” ，包括把反復交互沉淀成知識、從成功 / 失敗中抽象程序性知識、跨任務保持身份一致性等。
LLM Memory：“模型內部機制 / 長序列處理”
確實存在一條與 Agent Memory 不同、但同樣重要的研究路線 —— 真正意義上的 LLM-internal memory 。這類工作關注的不是智能體如何在長期交互中積累經驗，而是模型在內部計算過程中如何更有效地保留和利用序列信息。這些方法的核心問題是：在一次或有限次推理過程中，如何避免早期 token 的信息衰減，如何在計算與顯存受限的前提下保持對長距離依賴的建模能力。其研究對象，本質上是模型內部的狀態與動態。它們并不假設模型是一個長期存在、需要跨任務保持身份與目標的自主體，也不要求模型與環境進行持續交互或做出一系列有后果的行動決策。換言之，這些方法即便不引入 agentic 行為，也完全成立：模型依然可以在單次問答、長文檔理解或摘要等任務中受益。
RAG：“靜態知識訪問”
RAG 通常強調從外部知識庫檢索靜態信息以提升回答事實性；它可以是 Agent Memory 的一部分實現，但如果系統沒有長期一致性、沒有演化機制、沒有跨任務的 “自我” ，那么它更像 “知識訪問模塊” ，而非完整記憶系統。這個差別在綜述的概念對照圖說明里也被點明：RAG 更接近 “static knowledge access” 。
Context Engineering：“當下推理的外部腳手架”
Context Engineering 的目標常常是：在上下文窗口受限時，如何組織提示、壓縮信息、構建工具輸出格式等 —— 它優化的是 “此刻模型看到什么” 。而論文強調：Context Engineering 是外部腳手架；Agent Memory 是支持學習與自主性的內部基底。前者優化當下接口，后者維持跨窗口、跨任務的持續認知狀態。
Forms：記憶的載體是什么？
綜述把 agent memory 的形式歸納為三大類：token-level /parametric/latent 。
這三類的差別聚焦于：信息以什么表示、在哪里存、如何讀寫、以及可解釋性與可塑性的取舍。
Token-level Memory：最 “顯式” 的記憶層
token-level memory 的定義非常直觀：它把信息存成持久、離散、可外部訪問與檢查的單元；這里的 token 不僅是文字 token ，也可以是視覺 token、音頻幀等，只要是可寫、可檢索、可重排、可修改的離散元素即可。
為什么它在工程里最常見？因為它天然具備三種優勢：
1. 透明：你能看到存了什么；
2. 可編輯：能刪改、能糾錯；
3. 易組合：適合作為檢索、路由、沖突處理的 “中間層” ，并與 parametric/latent memory 協同。
但 token-level 并不是 “一個向量庫” 那么簡單。進一步按 “拓撲結構復雜度” 可以把它分成三種組織方式：

Flat Memory（1D）：沒有顯式拓撲關系，記憶像序列 / 離散單元一樣累積（例如片段、軌跡）。它的優點是實現簡單、寫入快；缺點是檢索與更新容易退化成 “相似度匹配 + 越存越亂” 。 Planar Memory（2D）：單層結構化組織，記憶單元之間通過圖、樹、表等關系連接，但不分層。它更適合多跳推理、關系約束與一致性維護；代價是構建與維護結構更復雜。 Hierarchical Memory（3D）：多層結構并帶跨層鏈接，形成 “分層 / 立體化” 的記憶體系。它的動機往往是：既要保留細節，又要形成抽象總結，并讓檢索可以在不同粒度之間切換。這反應了當記憶規模增大，單純堆歷史就會暴露弊端，必須引入結構（2D）與分層抽象（3D），才能讓長期存在的外部記憶真正可用。
Parametric Memory：把記憶 “寫進權重”
Parametric memory 的定義是：信息存儲在模型參數中，通過參數空間的統計模式編碼，并在前向計算中被隱式訪問。它更像人類 “內化后的直覺”：不用每次檢索外部庫，模型直接學會并記住這些內容。但代價同樣明顯：
需要訓練 / 更新權重（成本高）難以精確編輯與審計容易和遺忘、分布漂移、災難性遺忘問題糾纏在一起
Latent Memory：藏在隱狀態 / 連續表示里的 “動態記憶”
Latent memory 的定義是：記憶以模型內部隱狀態、連續表示或演化的潛在結構存在，可在推理時或交互周期中持續更新，用于捕捉上下文相關的內部狀態。

它介于 “外部顯式存儲” 和 “權重內化” 之間：比 token-level 更緊湊、更接近模型計算過程；比 parametric 更容易在推理期更新，但也往往更難解釋、更難審計。

Functions：記憶的功能是什么？
這一分類角度是這篇綜述的核心觀點之一，它不再用 “長 / 短期” 這種時間尺度粗分，而是用功能角色把 agent memory 分成三類：
Factual memory（事實記憶）：記錄來自用戶與環境交互的知識 Experiential memory（經驗記憶）：從任務執行中增量提升解決問題的能力 Working memory（工作記憶）：管理單個任務實例中的工作區信息這三個概念的價值在于：它們對應的是三種完全不同的 “記憶失敗模式” ，也對應三類不同的系統設計。

Factual Memory：讓智能體 “記住世界” ，并且可核查
事實記憶的一個關鍵目標，是提供一個可更新、可檢索、可治理（governable）的外部事實層，讓系統在跨 session / 跨階段時有穩定參考。這類記憶不只面向 “用戶偏好” ，也面向 “環境事實”：長文檔、代碼庫、工具狀態、交互軌跡等。
環境事實記憶能成為持續可更新、可審計、可復用的外部事實層；在協作維度還能維持跨 agent、跨階段一致性，從而支撐多來源信息與長周期任務下的穩健執行。
如果你做過 “多輪對話 + 多工具 + 多資料” 的系統，你會非常熟悉這種痛點：事實一旦散落在歷史對話里，就會反復被遺忘、被誤引、被編造。事實記憶的意義，就是把 “可核查的世界狀態” 從臨時上下文里抽出來，變成可維護的對象。
Experiential Memory：讓智能體 “吃一塹長一智”
經驗記憶的定義更像能力的積累：它把歷史軌跡、提煉后的策略、交互結果編碼為可持久檢索的表示。它與工作記憶不同：工作記憶管 “眼前這一題” ，經驗記憶關心 “跨 episode 的長期積累與遷移” 。
綜述把經驗記憶與認知科學里的非陳述性記憶（程序性 / 習慣系統）類比，同時指出 agent 的獨特優勢：它往往用顯式數據結構存儲，因此反而具備生物體沒有的能力 —— 可以內省、編輯、并對自己的程序性知識做推理。經驗記憶給了智能體一種避免頻繁參數更新的持續學習路徑，把交互反饋轉化為可復用知識，幫助系統糾錯、抽象啟發式、編譯常規行為，從而減少重復計算并提升決策質量。
經驗記憶按抽象層級分成三類：
Case-based：幾乎不加工的歷史記錄，強調保真度，用作 in-context exemplars； Strategy-based：從軌跡中蒸餾可遷移的推理模式 / 工作流，作為規劃腳手架； Skill-based：把策略進一步落到可執行技能（代碼片段、API 協議等），成為可組合的執行底座。
Working Memory：讓智能體在 “單次任務里” 不被信息淹沒
工作記憶聽起來像短期記憶，但在 agent 場景里，它最典型的問題不是時間短，而是：即時輸入太大、太雜、模態太高維（長文檔、網頁 DOM、視頻流……），在固定 attention / 上下文預算下必須建立一個 “可寫工作區” 。
一類是 single-turn working memory：目的就是單次調用之內 “減 token” ，包括 hard/soft/hybrid 壓縮，以及輸入內容結構化、抽象化；另一類為 multi-turn working memory：關注多輪之間的狀態維持與壓縮、針對子任務的折疊剪切、使用 planning 管理記憶等等。
Dynamics：記憶是如何運轉的？
如果說 Forms 解決 “記憶放哪兒”、Functions 解決 “記憶干嘛用” ，那 Dynamics 解決的就是：記憶系統如何運轉。
記憶的生命周期可以概括為三段：Memory Formation（形成）—Memory Evolution（演化）—Memory Retrieval（檢索），并強調三者構成一個相互反饋的循環：形成階段抽取新信息；演化階段做整合、沖突消解與剪枝；檢索階段提供面向當前任務的訪問；推理結果與環境反饋又反過來影響下一輪形成與演化。

Formation：從 “原始上下文” 到 “可存可取的知識”
Formation 階段把原始上下文（對話、圖像等）編碼成更緊湊的知識。動機非常直接：full-context prompting 會帶來計算開銷、內存壓力、以及在超長輸入上的推理退化，因此需要把關鍵信息蒸餾成更高效的表示。
formation 操作進一步分成五類：語義總結、知識蒸餾、結構化構建、潛在表示、以及參數內化。這五類幾乎對應了 Forms 的三種載體：總結 / 結構化更偏 token-level；潛在表示偏 latent；參數內化對應 parametric 。
Retrieval：決定 “記憶是否真的能幫你做決策”
retrieval 形式化為一個操作：在每個時間步，根據當前觀察與任務構造查詢，并返回相關記憶內容；返回的記憶信號會被格式化成 LLM 策略可直接消費的文本片段或結構化摘要。
檢索不必每步發生，可能只在任務初始化發生，也可能間歇觸發或持續觸發；而 “短期 / 長期” 效果往往不是因為搭載了兩個模塊，而是由 formation/evolution/retrieval 的觸發節奏決定的。這點對工程實踐有指導意義：很多系統并非缺一個長期庫，而是觸發策略不對、導致記憶無法進入決策回路。

Evolution：記憶庫也需要 “維護與新陳代謝”
Evolution 階段的任務是把新增記憶與已有記憶整合，通過合并相關條目、沖突消解、剪枝等機制，讓記憶保持可泛化、連貫且高效。
這也是為什么 “記憶系統” 遲早會走向更復雜的治理問題：刪什么、留什么、如何避免自相矛盾、如何避免隱私泄漏、如何給多智能體共享時加規則…… 這些都屬于 evolution 的范疇。

【最火、最全的Agent記憶綜述，NUS、人大、復旦、北大等聯合出品】資源整理：Benchmark 與開源框架
綜述專門用 Section 6 匯總 benchmarks 與開源框架資源，這是支持實證研究與落地開發的關鍵基礎設施，方便相關科研工作者查閱。

前沿展望：下一代記憶系統走向何方？
與其把記憶當作一個檢索插件，不如把它當作智能體長期能力的 first-class primitive ，作為 agent 的核心功能之一：
從 Memory Retrieval 到 Memory Generation（記憶從 “找出來” 變成 “生成出來”）；從 Hand-crafted 到 Automated Memory Management（記憶系統從 “人工寫規則” 變成 “自動管理”）；從 Heuristic Pipelines 到 RL-driven Control（從啟發式流程走向強化學習端到端優化）；并進一步討論這些變化如何與多模態、多智能體協作、可信安全等主題交織。
記憶檢索 vs 記憶生成：從 “取片段” 到 “做抽象”
傳統檢索范式把記憶看成一個已經 “寫好” 的倉庫：當前任務需要什么，就從向量庫 / 圖結構 / 重排器里把最相關的片段找出來拼進上下文，核心指標是檢索的 precision/recall 。大量工作圍繞索引、相似度、重排、結構化來提升 “找得準不準” 。但 Agent 真正的長期能力不只依賴 “取回舊文本” ，而更依賴一種面向未來的抽象：
記憶不必是原始碎片，它可以被壓縮、重組、重寫成更適合后續推理的表示；尤其當原始記錄冗余、噪聲大、與任務不對齊時， “拼接式檢索” 往往把上下文塞滿，卻不一定讓模型更會做事。這有兩條主線：
1）Retrieve-then-Generate：先檢索，再把檢索到的材料重寫成更緊湊、更一致、更任務相關的 “可用記憶” ，如 ComoRAG、G-Memory、CoMEM 這類思路，保留可追溯的歷史 grounding ，同時提升可用性；
2）Direct Generation：不顯式檢索，直接從當前上下文 / 交互軌跡 / 潛在狀態中生成記憶表示，比如用 “潛在記憶 token” 的方式繞開傳統查庫。
而未來則更關注三個方面：
Context-adaptive（上下文自適應）：不是一刀切總結，而要能隨任務階段與目標動態調整粒度與抽象層次； Integrate heterogeneous signals（融合異質信號）：把文本、代碼、工具輸出、環境反饋等碎片 “熔成” 統一表示； Learnedself-optimizing（可學習且自優化）：什么時候生成、生成成什么樣，不再靠人工規則，而由優化信號（例如 RL 或長期任務表現）驅動，與推理 / 決策共同進化。自動化記憶管理：從 “寫規則” 到 “讓 Agent 自己管記憶”
如今很多搭載 memory 的 Agent 其記憶行為本質仍是工程規則 —— 寫什么、什么時候寫、怎么更新 / 怎么取，都靠提示詞、閾值、人工策略。這樣做的好處是成本低、可解釋、可復現，適合快速原型；但缺點也同樣致命：僵硬、難泛化，在長程或開放式交互里容易失效。因此近期開始出現讓 Agent 自主參與記憶管理的方向：
讓模型把細粒度條目自動聚類成更高層抽象單元；引入專門的 “memory manager” 代理來處理更新。
但很多方法仍被手工規則牽引，或只在狹窄目標上優化，因此離通用自動記憶還有距離。而未來可能的路線有兩條：
第一條是把記憶操作顯式接入決策：
不再把記憶當外部模塊，而是讓 Agent 在每一步都能通過工具調用式接口執行 add/update/delete/retrieve ，并且 “知道自己做了什么記憶動作” 。這會讓記憶行為更連貫、更透明、更能與當前推理狀態對齊。
第二條是走向自優化的記憶結構：
不僅僅 “分層存儲” ，更要讓記憶庫能動態鏈接、索引、重構，使存儲結構本身隨時間自組織，從而減少對手工規則的依賴，最終支持更魯棒、可擴展的自主記憶。
強化學習 × 記憶：記憶控制正在被 RL “內化” 進策略
在 Memory 中引入 RL 是一種從 pipeline 到 model-native 的轉向：早期大量系統要么是閾值 / 語義檢索 / 拼接等啟發式；要么看起來很 “agentic” ，但其實只是 prompt 驅動，模型并沒受過任何有效記憶控制的訓練。
隨后出現 RL-assisted memory：只對記憶生命周期的某一環節上 RL ，比如：
用輕量 policy gradient 給檢索到的 chunk 排序（后重排）；訓練記憶寫入 / 壓縮 / 折疊工作記憶的策略（Context Folding、Memory-as-Action、MemSearcher、IterResearch 等）。這一類已經展示出很強的潛力， RL 很可能會在未來記憶系統里扮演更中心角色。下一階段則更可能是 Fully RL-driven memory 。它需要滿足兩個理想特點：
1）盡量減少人類先驗：
目前很多記憶系統借鑒人類認知（海馬體 / 皮層類比）、預設層級（episodic/semantic/core），這些抽象對早期探索很有價值，但未必是人工智能體在復雜環境中的最優結構。若進入 fully RL-driven ， Agent 有機會在優化驅動下 “發明” 新的記憶組織形式、存儲 schema、更新規則。
2）讓 Agent 對全生命周期擁有完整控制：
許多 RL 方法只覆蓋 “寫入” 或 “短期折疊” ，卻沒把長期整合、演化、檢索策略真正統一起來。論文認為，要讓形成 - 演化 - 檢索多粒度協同運轉，幾乎必然需要端到端 RL ，因為僅靠啟發式或提示詞無法在長時域里協調這些復雜交互。
當記憶成為可學習、可自組織、與 Agent 共進化的子系統時，它就不再是外掛，而會成為長期能力與持續學習的基礎設施。
多模態記憶：缺的不是 “能存圖” ，而是 “跨模態統一語義與時間”
隨著 Agent 走向具身、交互式環境，信息來源天然是多模態的：視覺、動作、環境反饋等都會進入記憶系統。未來真正的難點不是把圖片 / 視頻 “塞進庫” ，而是讓記憶支持異質信號的統一存取與推理。當前的兩個關鍵缺口在于：
目前沒有真正 “omnimodal” 的記憶系統，大多仍是單模態特化或松耦合；多模態記憶需要從被動存儲走向支持抽象、跨模態推理與長期適應。多智能體共享記憶：從 “各聊各的” 到 “共享認知底座”
MAS 的早期范式：每個 agent 有自己的局部記憶，通過消息傳遞來協作。這避免直接干擾，但會帶來冗余、上下文割裂、溝通開銷爆炸，團隊規模和任務時長一上來就撐不住。因此出現中心化共享記憶，其作為團隊共同 ground truth：支持聯合注意、減少重復、利于長程協作；但也引入新問題：記憶污染、寫沖突、缺少基于角色 / 權限的訪問控制。
共享記憶會從倉庫進化為主動管理的集體表示，有三條可能的方向：
agent-aware shared memory：讀寫與角色、專長、信任綁定，使聚合更結構化、更可靠； learning-driven management：不靠手工同步 / 總結 / 沖突解決策略，而訓練 agent 在長期團隊收益下決定何時寫、寫什么、怎么寫；面向開放與多模態場景，共享記憶需要保持時間與語義一致性，作者認為 latent memory 可能是一條有前景的路徑 ?？尚庞洃洠弘[私、可解釋與抗幻覺，必須成為 “第一原則”
當記憶進入長期、個性化、跨會話存儲后，問題已經不再是傳統 RAG 的 “是否會胡說” ，而是一個更大的可信系統工程：因為 Agent 記憶會保存用戶偏好、歷史交互、行為痕跡等潛在敏感信息，風險維度從 factuality 擴展到隱私、安全、可控與可審計。
（1）隱私保護：需要更細粒度的權限記憶、由用戶主導的保留策略、加密或端側存儲、必要時的聯邦訪問；并可結合差分隱私、記憶脫敏 / 刪改、以及可驗證的 “遺忘” 機制（例如衰減式遺忘或用戶擦除接口）來降低泄露風險。
（2）可解釋性：不僅要看到 “記憶內容” ，還要能追蹤 “訪問路徑”：哪些條目被取了、如何影響生成、是否被誤用；甚至支持反事實分析（“如果不取這條記憶，會怎樣”）。論文提出未來可能需要可視化記憶注意、因果圖、面向用戶的調試工具等成為標配。
（3）抗幻覺與沖突魯棒性：在沖突檢測、多文檔推理、不確定性建模上繼續推進；包括低置信檢索時的拒答 / 保守策略、回退到模型先驗、或用多智能體交叉核驗等。論文還特別提到，機制可解釋性方法（例如在表示層面定位幻覺來源）可能會成為 “診斷 + 干預” 的新工具箱。
結語：把 “記憶” 當作
智能體的 first-class primitive
通過 Forms/Functions/Dynamics 的統一視角，記憶不再是附屬插件，而是智能體實現時間一致性、持續適應與長程能力的關鍵基底；未來隨著 RL 融合、多模態與多智能體場景興起，以及從檢索中心走向生成式記憶的趨勢，記憶系統將變得更可學習、更自組織、更具適應性。

推薦閱讀

上一篇：AI搶產能，內存漲價潮。

下一篇：Kodiak AI利用自動駕駛技術和物聯網連接變革貨運行業