經驗池讓Agents互相學習!GAIA新開源SOTA,Pass

經驗池讓Agents互相學習!GAIA新開源SOTA,Pass

文章圖片

經驗池讓Agents互相學習!GAIA新開源SOTA,Pass

文章圖片

經驗池讓Agents互相學習!GAIA新開源SOTA,Pass

文章圖片

經驗池讓Agents互相學習!GAIA新開源SOTA,Pass

文章圖片

經驗池讓Agents互相學習!GAIA新開源SOTA,Pass

文章圖片




近日 , 來自 OPPO、耶魯大學、斯坦福大學、威斯康星大學麥迪遜分校、北卡羅來納大學教堂山分校等多家機構的研究團隊聯合發布了 Agent KB 框架 。 這項工作通過構建一個經驗池并且通過兩階段的檢索機制實現了 AI Agent 之間的有效經驗共享 。 Agent KB 通過層級化的經驗檢索 , 讓智能體能夠從其他任務的成功經驗中學習 , 顯著提升了復雜推理和問題解決能力 。





  • 論文地址:https://arxiv.org/abs/2507.06229
  • 開源代碼:https://github.com/OPPO-PersonalAI/Agent-KB


Agent 記憶系統:從獨立作戰到協同學習

在 AI Agent 的發展歷程中 , 記憶(memory)系統一直是實現持續學習和智能進化的關鍵組件 。 廣義上的 Agent 記憶系統有用于存儲當前對話或任務中的臨時信息的短期記憶 , 也有保存重要的知識、經驗和學習成果的長期記憶 , 還有處理當前任務時的活躍信息緩存的工作記憶 , 部分還包括記錄特定場景下的問題解決策略的情境記憶 。


然而 , 現有的記憶系統存在一個根本性限制:不同的 Agent 框架下的經驗無法有效共享 。 由于不同的任務往往有著不同的 multi-agent 框架 , 每當遇到新任務時 , 它們往往需要從零開始探索 , 即使相似的問題解決策略已經在相關領域得到驗證 。


Agent KB 正是為了解決這一痛點而生 。 它構建了一個共享的經驗池/知識庫系統 , 首先讓不同的多智能體系統(比如 OpenHands、MetaGPT、AutoGen 等)去執行不同的任務 , 然后將成功的問題解決經驗抽象化并存儲 。 當遇到新的數據集中的測試例子的時候 , 從歷史經驗中檢索相關的解決策略 , 將其他 agent 的經驗適配到新的任務場景 。


該框架的核心技術共享在于提出了一個「Reason-Retrieve-Refine」方案和 Teacher-Student 雙階段的檢索機制 , 讓 Agent 能夠在不同層次上學習和應用歷史經驗 。


GAIA 基準測試:通用 AI 助手的終極挑戰

GAIA(General AI Assistants)被譽為「通用 AI 助手的終極測試」 , 是目前最具挑戰性的智能體評估基準之一 。 與傳統的 NLP 基準測試不同 , GAIA 專門設計用來評估智能體在現實世界復雜任務中的綜合能力 。


GAIA 的核心特點體現在其對真實世界復雜性的還原 。 任務來源于真實的用戶需求 , 而非人工構造的簡單問題 , 這要求智能體具備多模態交互能力 , 需要處理文本、圖像、音頻等多種信息類型 。


更重要的是 , 智能體必須具備工具使用能力 , 能夠調用搜索引擎、代碼執行器、文件處理工具等外部資源 。 大多數任務需要多個推理步驟和中間決策 , 同時對答案的準確性有嚴格要求 , 容錯率極低 。


GAIA 驗證集包含 165 個精心設計的測試用例 , 按復雜度分為三個級別 。 Level 1 包含 53 個基礎任務 , 需要簡單推理或直接信息檢索;Level 2 包含 86 個中等復雜度任務 , 需要多步推理或工具組合使用;Level 3 包含 26 個高難度任務 , 需要復雜推理鏈和專業領域知識 。


該文的評估指標主要包括 Pass@1(agent 首次嘗試的成功率 , 是最嚴格也最重要的指標)和 Pass@3(三次嘗試中至少一次成功的概率 , 用于評估系統的上限) 。 我們發現 Agent KB 作者非常嚴謹 , 因為有些公司或組織在宣傳他們的產品并在 GAIA 上匯報成績時 , 并不會指出它是 Pass@N 還是 Pass@1 。


實驗結果:Agent KB 的表現驚人




在 GAIA 基準測試中 , Agent KB 取得了令人矚目的成果 。 由于 Agent KB 的研究團隊的初衷并不是為了提出一個更新的、更復雜的多智能體框架 。 所以他們選擇了相對十分簡單甚至結果不是那么理想的 smolagents作為基礎智能體框架進行測試 , 這樣能夠更清晰地展現經驗共享機制本身的效果 , 而非復雜框架帶來的性能增益 。


  • smolagents地址:https://github.com/huggingface/smolagents


實驗結果顯示 , 在最嚴格的 Pass@1 評估下 , GPT-4.1 模型的整體性能從基線的 55.15% 大幅躍升至 61.21% , 提升了 6.06 個百分點 。 Claude-3.7 的表現更加出色 , 從 58.79% 提升至 65.45% , 增幅達 6.66 個百分點 。 這一結果尤其令人矚目 , 因為它表明即使在相對基礎的智能體框架上 , Agent KB 也能夠實現接近頂級商業系統的性能水平 。





研究團隊還測試了六個主流 LLMs 在 Agent KB 增強后的性能表現 。 從 DeepSeek-R1 的穩步改進到 Claude-3.7 的顯著飛躍 , 從 GPT-4o 的均衡提升到 o3-mini 的大幅增長 , 所有測試模型都顯示出一致的改進趨勢 。 這種跨模型、跨難度級別的普遍性改進有力證明了 Agent KB 方法的普適性和可靠性 。


在軟件工程領域的 SWE-bench 數據集中 , Agent KB 同樣展現出強勁的實用價值 。 該基準包含 300 個來自 11 個流行 Python 倉庫的真實 issue , 需要 Agent 理解現有代碼庫并實施恰當的修復方案 。


o3-mini 在 50 次迭代下從 23.00% 提升到 31.67%(+8.67 個百分點) , 在 100 次迭代下從 29.33% 提升到 33.67%(+4.34 個百分點) 。 這些結果證明了 Agent KB 的跨域知識共享能力不僅適用于通用問答任務 , 在專業的代碼修復領域同樣發揮著重要作用 。





技術架構:Teacher-Student Agents 協作的精妙設計




Agent KB 的技術創新核心在于其「Reason-Retrieve-Refine」流程和 Teacher-Student 雙階段檢索機制 。 這里通過一個蛋白質數據庫(PDB)距離計算案例展示了這一機制的工作原理 。


在傳統流程中 , 智能體會盲目讀取前兩行 ATOM/HETATM/ANISOU 記錄 , 經常誤選溶劑記錄 , 導致計算出錯誤的 O-H 距離(0.961 ?) 。 而 Agent KB 增強的 agent 則能夠應用經驗驅動的規則:智能過濾 ANISOU/HETATM 記錄 , 專注于真正的 ATOM 條目 , 并通過 N-CA 鍵長范圍的合理性檢查進行驗證 , 最終精準提取骨架 N-CA 原子對 , 報告出正確的 1.456 ? 距離 。





Agent KB 的深層架構精髓體現在其「Reason-Retrieve-Refine」步驟設計上 , 該方案巧妙地將層級化的經驗存儲與智能檢索機制相結合 。 整個框架圍繞兩個核心階段展開:Agent KB 知識構建階段和 Agent KB 增強的推理階段 。


在知識構建階段 , 系統從多元化數據集(BrowserComp、HopRAG、HLE、RepoBench 等)中系統性地提取可泛化的問題解決模式 。 通過自動化摘要和 few-shot 提示 , 原始的輸出的 log(日志)被轉化為結構化的知識條目 。 這些經驗并非簡單的 trajectory(執行軌跡) , 而是經過深度抽象處理的 reasoning patterns(推理模式) , 能夠跨越任務邊界實現有效的知識遷移 。


Agent KB 增強推理階段的技術創新在于引入了雙 Agent 協作機制 , 其中 Student Agent 和 Teacher Agent 則承擔著經驗檢索與適應性指導的互補角色 。 獨立于 Agent KB 之外還有 Execution Agent 負責實際任務執行 , 比如作者用 OpenHands 來做 SWE-Bench 的任務 , OpenHands 就是 Execution Agent 。


Student Agent 率先執行完整的 Reason-Retrieve-Refine 循環:通過深度推理分析當前任務特征 , 檢索匹配的工作流(workflow)級別的歷史經驗模式 , 并將這些經驗進行適應性修改 , 為 Execution Agent 提供 high-level、整體的解決方案框架指導 。 這一過程確保了執行 Agent 能夠基于歷史成功經驗構建合理的宏觀策略 。


Teacher Agent 則扮演著更為精細的監督與優化角色 , 它持續分析 Execution Agent 的輸出軌跡 (trajectory) , 敏銳識別其中的潛在問題、執行偏差和效率瓶頸 , 并提供針對性的精細化改進建議 。 當發現問題時 , Teacher Agent 會精準檢索相關的 Step(步驟)級別的細粒度經驗 , 并將這些經驗進行適應性調整 , 為 Execution Agent 提供針對性的精細化改進建議 。 這種分層協作機制的精妙之處在于實現了宏觀戰略規劃與微觀執行優化的有機統一:Student Agent 確保整體方向的正確性 , Teacher Agent 保證實施過程的精確性 。


這種分層檢索架構以不同粒度滿足問題解決各階段的差異化需求:初期規劃階段 , Student Agent 基于問題特征檢索高層 Workflow 經驗并進行適應性修改 , 為執行提供戰略指導;執行優化階段 , Teacher Agent 基于實時軌跡檢索細粒度經驗并進行針對性調整 , 提供戰術層面的糾正建議 。 通過將經驗存儲為抽象化的結構模式而非具體實現細節 , 系統實現了跨域知識的有效遷移 , 使得經過適應性修改的抽象原理能夠在新環境中發揮更大的指導價值 。 整個框架采用模塊化和框架無關的設計理念 , 不僅能夠與多種 Agent 架構無縫集成 , 更為跨框架的經驗共享和協作學習開辟了新的可能性 。


深度消融研究驗證有效性

為了全面驗證 Agent KB 各個組件的獨立貢獻 , 研究團隊設計了系統性的消融實驗 。 Table 3 的詳細數據揭示了每個關鍵模塊對整體性能的影響程度 。





消融實驗的核心發現表明 , 雙 Agent 協作架構的每個組件都發揮著不可替代的作用 。 Student Agent 的缺失使得 Level 1 任務結果從 79.25% 下降至 75.47% , 反映了其在初期工作流規劃中的關鍵作用;而 Teacher Agent 的移除則使 Level 1 結果從 79.25% 下降至 73.58% , 凸顯了其在早期階段精細化指導的重要價值 。


最為關鍵的發現是 Refine 模塊的核心地位 。 移除該模塊導致最顯著的性能下降 , 整體準確率從 61.21% 驟降至 55.15% , 而 Level 3 任務的性能更是從 34.62% 降至 30.77% 。 這一結果充分證明了適應性精煉機制在處理復雜推理任務中的關鍵作用 , 表明簡單的經驗檢索并不足夠 , 必須結合智能化的經驗適配才能實現有效的知識遷移 。


檢索策略深度分析

Agent KB 采用了多層次的檢索機制來確保知識的精準匹配 。 系統實現了三種核心檢索方法:


  • 文本相似度檢索:基于 TF-IDF 等傳統信息檢索技術 , 通過關鍵詞匹配識別表面相似的任務和解決方案 。
  • 語義相似度檢索:采用 sentence-transformers/all-MiniLM-L6-v2 等預訓練模型 , 將文本編碼為高維向量表示 , 通過余弦相似度計算捕捉深層語義關聯 。
  • 混合檢索策略:通過加權融合上述兩種方法 。


此外 , 系統還在兩個不同的抽象層次進行檢索:


  • 基于摘要的檢索:對執行日志進行高層次概括 , 重點關注整體策略和工作流模式 , 適用于宏觀規劃指導 。
  • 基于批評的檢索:專注于錯誤模式和失敗案例 , 通過分析相似的問題情境來提供針對性的改進建議 。


Figure 4 的實驗結果揭示了最優檢索策略的選擇原則:





  • 對于基于摘要的檢索(左側面板) , 混合方法在各個難度級別上都表現最佳 , 在 GAIA Level 1 任務上達到 83% 的準確率 , 在 SWE-bench 上實現 37% 的解決率 。 這表明宏觀策略規劃需要兼顧關鍵詞精確匹配和語義理解的雙重優勢 。
  • 對于基于批評的檢索(右側面板) , 文本相似度在 Level 2 任務上表現突出(67%) , 而語義相似度在 SWE-bench 上更有優勢(33%) 。 這說明錯誤模式匹配更依賴于具體的實現細節和精確的問題描述 。


這些發現的深層含義在于 , 不同類型的知識檢索需要匹配相應的檢索策略 。 基于摘要的檢索更適合宏觀策略匹配 , 因此混合方法能夠兼顧關鍵詞匹配和語義理解的優勢;而基于批評的檢索更關注具體執行細節 , 文本相似度能夠精確捕捉相似的錯誤模式和解決方案 。


這種分層檢索架構體現了 Agent KB 的精妙設計:在不同的問題解決階段采用最適合的檢索策略 , 既保證了知識匹配的準確性 , 又實現了跨任務的有效泛化 。


錯誤分析揭示改進機制

Figure 5 通過精確的錯誤統計分析 , 深入揭示了 Agent KB 改善智能體推理能力的內在機制 。 維恩圖的重疊區域分析表明 , Agent KB 的改進并非簡單的錯誤替換 , 而是有選擇性的智能化優化過程 。





對于 GPT-4.1 , 在總計 89 個錯誤案例中 , 49 個錯誤在基線和 Agent KB 配置中均出現 , 表明這些是模型固有的難以克服的限制 。 關鍵的改進體現在 Agent KB 成功糾正了 25 個基線特有錯誤 , 同時僅引入 15 個新錯誤 , 實現凈減少 10 個錯誤實例的積極效果 。 Claude-3.7 的表現模式相似但更為出色 , 在總計 79 個錯誤中 , 糾正了 22 個基線錯誤 , 引入 11 個新錯誤 , 凈改進達 11 個實例 。


錯誤類型的細分析顯示了 Agent KB 改進的針對性 。 檢索錯誤從 24 個減少到 20 個 , 規劃錯誤從 13 個減少到 10 個 , 這種改進直接源于 Agent KB 知識庫中包含的相似搜索協議和標準化工作流 。 Agent 通過這些結構化經驗能夠采用更加穩定和有效的問題解決路徑 , 避免了隨機探索導致的錯誤 。 同時 , 格式錯誤的顯著減少表明 Agent 通過學習相似任務的成功案例 , 掌握了更精確的輸出規范 。


技術意義與產業價值

Agent KB 的成功為 Deep Research 領域開辟了新的技術路徑 。 通過讓 Agent 學會從歷史經驗中提煉深層洞察 , 系統展現出了向自主研究能力演進的潛力 。 未來的 Agent 自我進化機制將不再依賴人工標注 , 而是通過持續的經驗積累和跨域知識遷移實現能力的螺旋式提升 。


【經驗池讓Agents互相學習!GAIA新開源SOTA,Pass】Agent KB 在 GAIA 基準上創造的開源 SOTA 記錄僅是其技術價值的冰山一角 。 其展現的跨任務知識遷移能力和協作學習機制 , 為構建下一代具備自我進化能力的 AI 系統提供了核心技術支撐 。

    推薦閱讀