高效智能體「幕后推手」?一篇綜述帶你從記憶×工具學習×規劃看透

高效智能體「幕后推手」?一篇綜述帶你從記憶×工具學習×規劃看透

文章圖片

高效智能體「幕后推手」?一篇綜述帶你從記憶×工具學習×規劃看透

文章圖片

高效智能體「幕后推手」?一篇綜述帶你從記憶×工具學習×規劃看透

文章圖片

高效智能體「幕后推手」?一篇綜述帶你從記憶×工具學習×規劃看透


隨著大模型能力的躍遷 , 業界關注點正在從 “模型能不能做” 快速轉向 “智能體能不能落地” 。 過去一年可以看到大量工作在提升智能體的有效性(effectiveness):如何讓它更聰明、更穩、更會用工具、更能完成復雜任務 。
但在真實應用里 , 另一個更 “硬” 的問題常常決定能否上線:高效性(efficiency) 。 智能體即便表現很好 , 如果每次都要消耗大量算力、時間與調用成本 , 也很難在生產環境大規模部署 。
基于這一視角 , 論文整理并撰寫了一篇面向 “高效智能體” 的綜述 , 系統梳理當前主要方法 , 并從三個最關鍵的機制出發組織全文框架:記憶 — 工具學習 — 規劃 。 論文從設計范式出發對代表性方法進行歸納總結 , 聚焦那些以效率為目標或能夠提升效率的核心設計與實現路徑 , 從而更清晰地呈現智能體在真實落地場景中的成本 — 性能權衡 。

論文地址:https://arxiv.org/abs/2601.14192 GitHub 地址:https://github.com/yxf203/Awesome-Efficient-Agents
一、智能體記憶:
讓 “會記” 更省、更準、更可擴展

智能體要做長任務 , 離不開記憶 。 但把歷史一股腦塞進提示詞 , 會帶來 token 暴漲和智能體處理長上下文能力下降 。 因此 , 高效記憶系統的關鍵在于把 “長歷史” 加工成 “可用、可檢索、可復用” 的信息資產 。
論文按記憶生命周期梳理三步:構建 — 管理 — 訪問 。
記憶構建:通過概括、壓縮與結構化把 “長對話” 轉成 “可用記憶” 。 一類是留在推理鏈路的工作記憶 , 文本式直觀但吃上下文 , 隱式式更像緩存 , 可減少重復編碼;另一類是外置為可檢索系統的外部記憶 , 先將信息壓成小單元再按需召回 , 包括條目式、圖式與分層式 。 此外論文也提到要警惕過度壓縮帶來的信息損失 , 即需要考慮如何在降成本與保真之間取得平衡 。 記憶管理:防止 “存爆炸” , 也避免 “取太慢” 。 規則式快但可能誤刪重要內容 , 大模型式更聰明但更貴 , 混合式則按層級或場景組合兩者策略 , 在效果與成本之間取得折中 。 記憶訪問:選什么 + 怎么用 。 訪問分記憶選擇與記憶整合 , 通過檢索或訓練等方式挑選記憶 , 再用壓縮過濾或隱式注入減少 token 與重復編碼 。另外 , 多智能體記憶也成為新趨勢 。 相較于只靠通信 , 近年更多工作開始引入 “記憶” 這一概念來支撐規?;瘏f作 , 論文將其概括為:共享記憶 / 本地記憶 / 混合記憶三類 。
二、工具學習:
讓 “會用工具” 更少調用、更少等待、更少走彎路

工具讓智能體從 “會說” 變成 “能做” , 但成本也最容易在工具鏈路里失控 。 論文按三條主線梳理提效思路:工具選擇 — 工具調用 — 工具融合推理 。
工具選擇:目標是 “更快選對、少塞進 prompt” 。 相關方法包括外部檢索器、多標簽分類 , 以及將工具映射為特殊 token 等思路 , 核心都是在大量工具中更快、更準地選出最需要的那幾個 。 工具調用:核心是 “少等、少調、少走彎路” 。 典型路線包括邊生成邊調用、并行化調用 , 以及利用成本感知調用與測試時高效擴展來削減冗余調用;進一步還可通過面向效率的后訓練把 “短軌跡、少調用” 寫進策略本身 。 工具融合推理:讓模型學會 “該不該用、何時用、用幾次” 。 代表性方向包括選擇性調用 , 引導智能體只在必要時才發起工具調用;以及成本約束策略優化 , 在保證效果的同時對冗余交互與過長軌跡施加懲罰 , 從而學到更短、更省的工具使用策略 。三、智能體規劃:
在 “深度” 與 “寬度” 上同時省下來

規劃決定智能體如何在多步決策空間里行動 。 效率問題要么來自單體推理 “想太深、搜太貴” , 要么來自多體協作 “聊太多、通信太重” 。 因此論文從兩條線展開:單智能體規劃與多智能體協作規劃 。

四、基準與評測(Benchmark):
沒有 “可比的尺” , 就談不上 “可落地的效率”
在談記憶、工具學習與規劃的提效方案之前 , 先要把 “尺子” 定清楚:高效到底怎么量?
論文強調 , 效率必須建立在有效性之上 。 省了資源卻顯著掉性能 , 不算高效 。 因此論文采用的定義是:在給定預算下取得更好的效果 , 或在相近效果下消耗更少資源 。
基于這一視角 , 論文先梳理了以有效性為主的 benchmark , 并進一步匯總了與效率相關的評測內容:一方面 , 整理了在 benchmark 中顯式納入效率信號(成本、延遲、調用次數等)的評測設置;另一方面 , 總結了智能體方法中常用的效率指標 , 用于刻畫 “省在哪兒、省多少” 。
五、挑戰與展望
論文同時也提出了目前的一些挑戰與展望:
1)統一評測框架:指標口徑統一 , 模塊開銷邊界清楚 , 才能真正讓各個智能體方法可比可復現 。
2)智能體的隱式推理(Latent Reasoning):大模型側的隱式推理正在升溫 , 但面向智能體的研究仍相對稀缺 。 由于智能體鏈路更長、更復雜 , 還要處理工具調用、規劃與記憶等環節 , 如何把中間推理 “做在隱式空間里”、在不掉效果的前提下降低成本 , 既是挑戰 , 也是機會 。
3)面向部署設計:在多智能體場景下 , 需要把部署成本納入考量 , 核心問題是投入產出比 。 也就是說 , 增加智能體帶來的收益 , 是否足以覆蓋新增的開銷 。
【高效智能體「幕后推手」?一篇綜述帶你從記憶×工具學習×規劃看透】4)多模態效率:多模態智能體發展很快 , 但效率研究仍相對欠缺 。 文本智能體的一些提效思路可以借鑒 , 但是直接遷移卻并不容易 , 因為多模態智能體的感知輸入、行為空間與任務結構更復雜、交互成本更高 。 因此 , 如何在多模態場景下系統地兼顧效果與成本 , 仍是亟待解決的關鍵問題 。

    推薦閱讀