最火、最全的Agent記憶綜述,NUS、人大、復旦、北大等聯合出品

最火、最全的Agent記憶綜述,NUS、人大、復旦、北大等聯合出品

文章圖片

最火、最全的Agent記憶綜述,NUS、人大、復旦、北大等聯合出品

文章圖片

最火、最全的Agent記憶綜述,NUS、人大、復旦、北大等聯合出品

文章圖片

最火、最全的Agent記憶綜述,NUS、人大、復旦、北大等聯合出品

文章圖片

最火、最全的Agent記憶綜述,NUS、人大、復旦、北大等聯合出品

文章圖片

最火、最全的Agent記憶綜述,NUS、人大、復旦、北大等聯合出品

文章圖片

最火、最全的Agent記憶綜述,NUS、人大、復旦、北大等聯合出品

文章圖片

最火、最全的Agent記憶綜述,NUS、人大、復旦、北大等聯合出品

文章圖片

最火、最全的Agent記憶綜述,NUS、人大、復旦、北大等聯合出品


在過去兩年里 , 記憶(Memory)幾乎從 “可選模塊” 迅速變成了 Agent 系統的 “基礎設施”:對話型助手需要記住用戶習慣與歷史偏好;代碼 / 軟件工程 Agent 需要記住倉庫結構、約束與修復策略;深度研究型 Agent 需要記住已閱讀的證據鏈、關鍵假設與失敗路徑 , 沒有 memory 的智能體難以跨任務保留有效經驗 , 難以穩定維護用戶偏好與身份設定 , 也難以在長周期協作中保持行為一致、避免反復犯同樣的錯誤 。 與此同時 Memory 概念在迅速膨脹、也在迅速碎片化:很多論文都聲稱自己在做 “agent memory” , 但實現方式、目標假設、評價協議差別巨大 , 多術語并行又進一步模糊了邊界 。
在這樣的背景下 , 來自新加坡國立大學、中國人民大學、復旦大學、北京大學等頂級學術機構共同撰寫并發布了百頁綜述《Memory in the Age of AI Agents: A Survey》 , 嘗試用統一視角為快速擴張、卻日益碎片化的 “Agent Memory” 重新梳理技術路徑 。

論文鏈接: https://arxiv.org/abs/2512.13564 Github 鏈接: https://github.com/Shichun-Liu/Agent-Memory-Paper-List綜述首先指出傳統的 “長 / 短期記憶” 二分法 , 已經不足以描述當代系統里更復雜的結構形態與動態機制:有的記憶是顯式 token 存儲 , 有的寫進參數 , 有的駐留在潛在狀態;有的服務于事實一致性 , 有的服務于經驗遷移 , 有的服務于單次任務的工作臺管理 —— 如果繼續用簡單時間尺度切分 , 就很難真正解釋這些差異 。
基于此 , 該綜述提出一個統一的分析框架:Forms–Functions–Dynamics(三角框架) 。 它試圖分別回答三類核心問題:

記憶以什么形式存在(Forms)——What Carries Memory? 是外部 token、參數 , 還是潛在狀態?
記憶解決什么問題(Functions)——Why Agents Need Memory? 它服務于事實一致、經驗成長 , 還是任務內工作記憶?
記憶如何運轉與演化(Dynamics)——How Memory Evolves? 它如何形成、如何被維護與更新、又如何在決策時被檢索與利用?
概念辨析:Agent Memory 到底
和 LLM Memory、RAG、Context Engineering 有何不同?
在大量工程實踐中 , “Memory” 這個詞往往被迅速簡化為幾個具體實現:一個向量數據庫加上相似度檢索 , 或者干脆等同為更長的上下文窗口、更大的 KV cache 。 在這種理解下 , 只要模型 “還能看到過去的信息” , 系統似乎就已經具備了記憶能力 。 然而 , 綜述明確指出:這些技術與 Agent Memory 確實存在交集 , 但在研究對象和問題層級上并不等價 。

Agent Memory:持久的、可自我演化的 “認知狀態”
Agent Memory 關注的是智能體持續維持的認知狀態 , 它不僅 “存” , 還要能在交互中不斷更新、整合、糾錯、抽象 , 并跨任務保持一致性 。 獨特性在于維護一個 persistent and self-evolving cognitive state , 并把事實與經驗整合在一起 。 Agent Memory 關心的是 “智能體知道什么、經歷過什么 , 以及這些東西如何隨時間變化” , 包括把反復交互沉淀成知識、從成功 / 失敗中抽象程序性知識、跨任務保持身份一致性等 。
LLM Memory:“模型內部機制 / 長序列處理”
確實存在一條與 Agent Memory 不同、但同樣重要的研究路線 —— 真正意義上的 LLM-internal memory 。 這類工作關注的不是智能體如何在長期交互中積累經驗 , 而是模型在內部計算過程中如何更有效地保留和利用序列信息 。 這些方法的核心問題是:在一次或有限次推理過程中 , 如何避免早期 token 的信息衰減 , 如何在計算與顯存受限的前提下保持對長距離依賴的建模能力 。 其研究對象 , 本質上是模型內部的狀態與動態 。 它們并不假設模型是一個長期存在、需要跨任務保持身份與目標的自主體 , 也不要求模型與環境進行持續交互或做出一系列有后果的行動決策 。 換言之 , 這些方法即便不引入 agentic 行為 , 也完全成立:模型依然可以在單次問答、長文檔理解或摘要等任務中受益 。
RAG:“靜態知識訪問”
RAG 通常強調從外部知識庫檢索靜態信息以提升回答事實性;它可以是 Agent Memory 的一部分實現 , 但如果系統沒有長期一致性、沒有演化機制、沒有跨任務的 “自我” , 那么它更像 “知識訪問模塊” , 而非完整記憶系統 。 這個差別在綜述的概念對照圖說明里也被點明:RAG 更接近 “static knowledge access” 。
Context Engineering:“當下推理的外部腳手架”
Context Engineering 的目標常常是:在上下文窗口受限時 , 如何組織提示、壓縮信息、構建工具輸出格式等 —— 它優化的是 “此刻模型看到什么” 。 而論文強調:Context Engineering 是外部腳手架;Agent Memory 是支持學習與自主性的內部基底 。 前者優化當下接口 , 后者維持跨窗口、跨任務的持續認知狀態 。
Forms:記憶的載體是什么?
綜述把 agent memory 的形式歸納為三大類:token-level /parametric/latent 。
這三類的差別聚焦于:信息以什么表示、在哪里存、如何讀寫、以及可解釋性與可塑性的取舍 。
Token-level Memory:最 “顯式” 的記憶層
token-level memory 的定義非常直觀:它把信息存成持久、離散、可外部訪問與檢查的單元;這里的 token 不僅是文字 token , 也可以是視覺 token、音頻幀等 , 只要是可寫、可檢索、可重排、可修改的離散元素即可 。
為什么它在工程里最常見?因為它天然具備三種優勢:
1. 透明:你能看到存了什么;
2. 可編輯:能刪改、能糾錯;
3. 易組合:適合作為檢索、路由、沖突處理的 “中間層” , 并與 parametric/latent memory 協同 。
但 token-level 并不是 “一個向量庫” 那么簡單 。 進一步按 “拓撲結構復雜度” 可以把它分成三種組織方式:

Flat Memory(1D):沒有顯式拓撲關系 , 記憶像序列 / 離散單元一樣累積(例如片段、軌跡) 。 它的優點是實現簡單、寫入快;缺點是檢索與更新容易退化成 “相似度匹配 + 越存越亂” 。 Planar Memory(2D):單層結構化組織 , 記憶單元之間通過圖、樹、表等關系連接 , 但不分層 。 它更適合多跳推理、關系約束與一致性維護;代價是構建與維護結構更復雜 。 Hierarchical Memory(3D):多層結構并帶跨層鏈接 , 形成 “分層 / 立體化” 的記憶體系 。 它的動機往往是:既要保留細節 , 又要形成抽象總結 , 并讓檢索可以在不同粒度之間切換 。這反應了當記憶規模增大 , 單純堆歷史就會暴露弊端 , 必須引入結構(2D)與分層抽象(3D) , 才能讓長期存在的外部記憶真正可用 。
Parametric Memory:把記憶 “寫進權重”
Parametric memory 的定義是:信息存儲在模型參數中 , 通過參數空間的統計模式編碼 , 并在前向計算中被隱式訪問 。 它更像人類 “內化后的直覺”:不用每次檢索外部庫 , 模型直接學會并記住這些內容 。 但代價同樣明顯:
需要訓練 / 更新權重(成本高) 難以精確編輯與審計 容易和遺忘、分布漂移、災難性遺忘問題糾纏在一起
Latent Memory:藏在隱狀態 / 連續表示里的 “動態記憶”
Latent memory 的定義是:記憶以模型內部隱狀態、連續表示或演化的潛在結構存在 , 可在推理時或交互周期中持續更新 , 用于捕捉上下文相關的內部狀態 。

它介于 “外部顯式存儲” 和 “權重內化” 之間:比 token-level 更緊湊、更接近模型計算過程;比 parametric 更容易在推理期更新 , 但也往往更難解釋、更難審計 。

Functions:記憶的功能是什么?
這一分類角度是這篇綜述的核心觀點之一 , 它不再用 “長 / 短期” 這種時間尺度粗分 , 而是用功能角色把 agent memory 分成三類:
Factual memory(事實記憶):記錄來自用戶與環境交互的知識 Experiential memory(經驗記憶):從任務執行中增量提升解決問題的能力 Working memory(工作記憶):管理單個任務實例中的工作區信息這三個概念的價值在于:它們對應的是三種完全不同的 “記憶失敗模式” , 也對應三類不同的系統設計 。

Factual Memory:讓智能體 “記住世界” , 并且可核查
事實記憶的一個關鍵目標 , 是提供一個可更新、可檢索、可治理(governable)的外部事實層 , 讓系統在跨 session / 跨階段時有穩定參考 。這類記憶不只面向 “用戶偏好” , 也面向 “環境事實”:長文檔、代碼庫、工具狀態、交互軌跡等 。
環境事實記憶能成為持續可更新、可審計、可復用的外部事實層;在協作維度還能維持跨 agent、跨階段一致性 , 從而支撐多來源信息與長周期任務下的穩健執行 。
如果你做過 “多輪對話 + 多工具 + 多資料” 的系統 , 你會非常熟悉這種痛點:事實一旦散落在歷史對話里 , 就會反復被遺忘、被誤引、被編造 。 事實記憶的意義 , 就是把 “可核查的世界狀態” 從臨時上下文里抽出來 , 變成可維護的對象 。
Experiential Memory:讓智能體 “吃一塹長一智”
經驗記憶的定義更像能力的積累:它把歷史軌跡、提煉后的策略、交互結果編碼為可持久檢索的表示 。 它與工作記憶不同:工作記憶管 “眼前這一題” , 經驗記憶關心 “跨 episode 的長期積累與遷移” 。
綜述把經驗記憶與認知科學里的非陳述性記憶(程序性 / 習慣系統)類比 , 同時指出 agent 的獨特優勢:它往往用顯式數據結構存儲 , 因此反而具備生物體沒有的能力 —— 可以內省、編輯、并對自己的程序性知識做推理 。 經驗記憶給了智能體一種避免頻繁參數更新的持續學習路徑 , 把交互反饋轉化為可復用知識 , 幫助系統糾錯、抽象啟發式、編譯常規行為 , 從而減少重復計算并提升決策質量 。
經驗記憶按抽象層級分成三類:
Case-based:幾乎不加工的歷史記錄 , 強調保真度 , 用作 in-context exemplars; Strategy-based:從軌跡中蒸餾可遷移的推理模式 / 工作流 , 作為規劃腳手架; Skill-based:把策略進一步落到可執行技能(代碼片段、API 協議等) , 成為可組合的執行底座 。
Working Memory:讓智能體在 “單次任務里” 不被信息淹沒
工作記憶聽起來像短期記憶 , 但在 agent 場景里 , 它最典型的問題不是時間短 , 而是:即時輸入太大、太雜、模態太高維(長文檔、網頁 DOM、視頻流……) , 在固定 attention / 上下文預算下必須建立一個 “可寫工作區” 。
一類是 single-turn working memory:目的就是單次調用之內 “減 token” , 包括 hard/soft/hybrid 壓縮 , 以及輸入內容結構化、抽象化; 另一類為 multi-turn working memory:關注多輪之間的狀態維持與壓縮、針對子任務的折疊剪切、使用 planning 管理記憶等等 。
Dynamics:記憶是如何運轉的?
如果說 Forms 解決 “記憶放哪兒”、Functions 解決 “記憶干嘛用” , 那 Dynamics 解決的就是:記憶系統如何運轉 。
記憶的生命周期可以概括為三段:Memory Formation(形成)—Memory Evolution(演化)—Memory Retrieval(檢索) , 并強調三者構成一個相互反饋的循環:形成階段抽取新信息;演化階段做整合、沖突消解與剪枝;檢索階段提供面向當前任務的訪問;推理結果與環境反饋又反過來影響下一輪形成與演化 。

Formation:從 “原始上下文” 到 “可存可取的知識”
Formation 階段把原始上下文(對話、圖像等)編碼成更緊湊的知識 。 動機非常直接:full-context prompting 會帶來計算開銷、內存壓力、以及在超長輸入上的推理退化 , 因此需要把關鍵信息蒸餾成更高效的表示 。
formation 操作進一步分成五類:語義總結、知識蒸餾、結構化構建、潛在表示、以及參數內化 。 這五類幾乎對應了 Forms 的三種載體:總結 / 結構化更偏 token-level;潛在表示偏 latent;參數內化對應 parametric 。
Retrieval:決定 “記憶是否真的能幫你做決策”
retrieval 形式化為一個操作:在每個時間步 , 根據當前觀察與任務構造查詢 , 并返回相關記憶內容;返回的記憶信號會被格式化成 LLM 策略可直接消費的文本片段或結構化摘要 。
檢索不必每步發生 , 可能只在任務初始化發生 , 也可能間歇觸發或持續觸發;而 “短期 / 長期” 效果往往不是因為搭載了兩個模塊 , 而是由 formation/evolution/retrieval 的觸發節奏決定的 。 這點對工程實踐有指導意義:很多系統并非缺一個長期庫 , 而是觸發策略不對、導致記憶無法進入決策回路 。

Evolution:記憶庫也需要 “維護與新陳代謝”
Evolution 階段的任務是把新增記憶與已有記憶整合 , 通過合并相關條目、沖突消解、剪枝等機制 , 讓記憶保持可泛化、連貫且高效 。
這也是為什么 “記憶系統” 遲早會走向更復雜的治理問題:刪什么、留什么、如何避免自相矛盾、如何避免隱私泄漏、如何給多智能體共享時加規則…… 這些都屬于 evolution 的范疇 。

【最火、最全的Agent記憶綜述,NUS、人大、復旦、北大等聯合出品】資源整理:Benchmark 與開源框架
綜述專門用 Section 6 匯總 benchmarks 與開源框架資源 , 這是支持實證研究與落地開發的關鍵基礎設施 , 方便相關科研工作者查閱 。


前沿展望:下一代記憶系統走向何方?
與其把記憶當作一個檢索插件 , 不如把它當作智能體長期能力的 first-class primitive , 作為 agent 的核心功能之一:
從 Memory Retrieval 到 Memory Generation(記憶從 “找出來” 變成 “生成出來”); 從 Hand-crafted 到 Automated Memory Management(記憶系統從 “人工寫規則” 變成 “自動管理”); 從 Heuristic Pipelines 到 RL-driven Control(從啟發式流程走向強化學習端到端優化);并進一步討論這些變化如何與多模態、多智能體協作、可信安全等主題交織 。
記憶檢索 vs 記憶生成:從 “取片段” 到 “做抽象”
傳統檢索范式把記憶看成一個已經 “寫好” 的倉庫:當前任務需要什么 , 就從向量庫 / 圖結構 / 重排器里把最相關的片段找出來拼進上下文 , 核心指標是檢索的 precision/recall 。 大量工作圍繞索引、相似度、重排、結構化來提升 “找得準不準” 。但 Agent 真正的長期能力不只依賴 “取回舊文本” , 而更依賴一種面向未來的抽象:
記憶不必是原始碎片 , 它可以被壓縮、重組、重寫成更適合后續推理的表示; 尤其當原始記錄冗余、噪聲大、與任務不對齊時 , “拼接式檢索” 往往把上下文塞滿 , 卻不一定讓模型更會做事 。這有兩條主線:
1)Retrieve-then-Generate:先檢索 , 再把檢索到的材料重寫成更緊湊、更一致、更任務相關的 “可用記憶” , 如 ComoRAG、G-Memory、CoMEM 這類思路 , 保留可追溯的歷史 grounding , 同時提升可用性;
2)Direct Generation:不顯式檢索 , 直接從當前上下文 / 交互軌跡 / 潛在狀態中生成記憶表示 , 比如用 “潛在記憶 token” 的方式繞開傳統查庫 。
而未來則更關注三個方面:
Context-adaptive(上下文自適應):不是一刀切總結 , 而要能隨任務階段與目標動態調整粒度與抽象層次; Integrate heterogeneous signals(融合異質信號):把文本、代碼、工具輸出、環境反饋等碎片 “熔成” 統一表示; Learnedself-optimizing(可學習且自優化):什么時候生成、生成成什么樣 , 不再靠人工規則 , 而由優化信號(例如 RL 或長期任務表現)驅動 , 與推理 / 決策共同進化 。自動化記憶管理:從 “寫規則” 到 “讓 Agent 自己管記憶”
如今很多搭載 memory 的 Agent 其記憶行為本質仍是工程規則 —— 寫什么、什么時候寫、怎么更新 / 怎么取 , 都靠提示詞、閾值、人工策略 。 這樣做的好處是成本低、可解釋、可復現 , 適合快速原型;但缺點也同樣致命:僵硬、難泛化 , 在長程或開放式交互里容易失效 。 因此近期開始出現讓 Agent 自主參與記憶管理的方向:
讓模型把細粒度條目自動聚類成更高層抽象單元; 引入專門的 “memory manager” 代理來處理更新 。
但很多方法仍被手工規則牽引 , 或只在狹窄目標上優化 , 因此離通用自動記憶還有距離 。 而未來可能的路線有兩條:
第一條是把記憶操作顯式接入決策:
不再把記憶當外部模塊 , 而是讓 Agent 在每一步都能通過工具調用式接口執行 add/update/delete/retrieve , 并且 “知道自己做了什么記憶動作” 。 這會讓記憶行為更連貫、更透明、更能與當前推理狀態對齊 。
第二條是走向自優化的記憶結構:
不僅僅 “分層存儲” , 更要讓記憶庫能動態鏈接、索引、重構 , 使存儲結構本身隨時間自組織 , 從而減少對手工規則的依賴 , 最終支持更魯棒、可擴展的自主記憶 。
強化學習 × 記憶:記憶控制正在被 RL “內化” 進策略
在 Memory 中引入 RL 是一種從 pipeline 到 model-native 的轉向:早期大量系統要么是閾值 / 語義檢索 / 拼接等啟發式;要么看起來很 “agentic” , 但其實只是 prompt 驅動 , 模型并沒受過任何有效記憶控制的訓練 。
隨后出現 RL-assisted memory:只對記憶生命周期的某一環節上 RL , 比如:
用輕量 policy gradient 給檢索到的 chunk 排序(后重排); 訓練記憶寫入 / 壓縮 / 折疊工作記憶的策略(Context Folding、Memory-as-Action、MemSearcher、IterResearch 等) 。 這一類已經展示出很強的潛力 , RL 很可能會在未來記憶系統里扮演更中心角色 。下一階段則更可能是 Fully RL-driven memory 。 它需要滿足兩個理想特點:
1)盡量減少人類先驗:
目前很多記憶系統借鑒人類認知(海馬體 / 皮層類比)、預設層級(episodic/semantic/core) , 這些抽象對早期探索很有價值 , 但未必是人工智能體在復雜環境中的最優結構 。 若進入 fully RL-driven , Agent 有機會在優化驅動下 “發明” 新的記憶組織形式、存儲 schema、更新規則 。
2)讓 Agent 對全生命周期擁有完整控制:
許多 RL 方法只覆蓋 “寫入” 或 “短期折疊” , 卻沒把長期整合、演化、檢索策略真正統一起來 。 論文認為 , 要讓形成 - 演化 - 檢索多粒度協同運轉 , 幾乎必然需要端到端 RL , 因為僅靠啟發式或提示詞無法在長時域里協調這些復雜交互 。
當記憶成為可學習、可自組織、與 Agent 共進化的子系統時 , 它就不再是外掛 , 而會成為長期能力與持續學習的基礎設施 。
多模態記憶:缺的不是 “能存圖” , 而是 “跨模態統一語義與時間”
隨著 Agent 走向具身、交互式環境 , 信息來源天然是多模態的:視覺、動作、環境反饋等都會進入記憶系統 。 未來真正的難點不是把圖片 / 視頻 “塞進庫” , 而是讓記憶支持異質信號的統一存取與推理 。 當前的兩個關鍵缺口在于:
目前沒有真正 “omnimodal” 的記憶系統 , 大多仍是單模態特化或松耦合; 多模態記憶需要從被動存儲走向支持抽象、跨模態推理與長期適應 。多智能體共享記憶:從 “各聊各的” 到 “共享認知底座”
MAS 的早期范式:每個 agent 有自己的局部記憶 , 通過消息傳遞來協作 。 這避免直接干擾 , 但會帶來冗余、上下文割裂、溝通開銷爆炸 , 團隊規模和任務時長一上來就撐不住 。 因此出現中心化共享記憶 , 其作為團隊共同 ground truth:支持聯合注意、減少重復、利于長程協作;但也引入新問題:記憶污染、寫沖突、缺少基于角色 / 權限的訪問控制 。
共享記憶會從倉庫進化為主動管理的集體表示 , 有三條可能的方向:
agent-aware shared memory:讀寫與角色、專長、信任綁定 , 使聚合更結構化、更可靠; learning-driven management:不靠手工同步 / 總結 / 沖突解決策略 , 而訓練 agent 在長期團隊收益下決定何時寫、寫什么、怎么寫; 面向開放與多模態場景 , 共享記憶需要保持時間與語義一致性 , 作者認為 latent memory 可能是一條有前景的路徑 ??尚庞洃洠弘[私、可解釋與抗幻覺 , 必須成為 “第一原則”
當記憶進入長期、個性化、跨會話存儲后 , 問題已經不再是傳統 RAG 的 “是否會胡說” , 而是一個更大的可信系統工程:因為 Agent 記憶會保存用戶偏好、歷史交互、行為痕跡等潛在敏感信息 , 風險維度從 factuality 擴展到隱私、安全、可控與可審計 。
(1)隱私保護:需要更細粒度的權限記憶、由用戶主導的保留策略、加密或端側存儲、必要時的聯邦訪問;并可結合差分隱私、記憶脫敏 / 刪改、以及可驗證的 “遺忘” 機制(例如衰減式遺忘或用戶擦除接口)來降低泄露風險 。
(2)可解釋性:不僅要看到 “記憶內容” , 還要能追蹤 “訪問路徑”:哪些條目被取了、如何影響生成、是否被誤用;甚至支持反事實分析(“如果不取這條記憶 , 會怎樣”) 。 論文提出未來可能需要可視化記憶注意、因果圖、面向用戶的調試工具等成為標配 。
(3)抗幻覺與沖突魯棒性:在沖突檢測、多文檔推理、不確定性建模上繼續推進;包括低置信檢索時的拒答 / 保守策略、回退到模型先驗、或用多智能體交叉核驗等 。 論文還特別提到 , 機制可解釋性方法(例如在表示層面定位幻覺來源)可能會成為 “診斷 + 干預” 的新工具箱 。
結語:把 “記憶” 當作
智能體的 first-class primitive
通過 Forms/Functions/Dynamics 的統一視角 , 記憶不再是附屬插件 , 而是智能體實現時間一致性、持續適應與長程能力的關鍵基底;未來隨著 RL 融合、多模態與多智能體場景興起 , 以及從檢索中心走向生成式記憶的趨勢 , 記憶系統將變得更可學習、更自組織、更具適應性 。

    推薦閱讀