系統學習Deep Research,這一篇綜述就夠了

系統學習Deep Research,這一篇綜述就夠了

文章圖片

系統學習Deep Research,這一篇綜述就夠了

文章圖片

系統學習Deep Research,這一篇綜述就夠了

文章圖片

系統學習Deep Research,這一篇綜述就夠了

文章圖片




近年來 , 大模型的應用正從對話與創意寫作 , 走向更加開放、復雜的研究型問題 。 盡管以檢索增強生成(RAG)為代表的方法緩解了知識獲取瓶頸 , 但其靜態的 “一次檢索 + 一次生成” 范式 , 難以支撐多步推理與長期研究流程 , 由此催生了 Deep Research(DR)這一新方向 。

然而 , 隨著相關工作的快速涌現 , DR的概念也在迅速膨脹并趨于碎片化:不同工作在系統實現、任務假設與評價上差異顯著;相似術語的使用進一步模糊了其能力邊界 。

正是在這一背景下 , 來自山東大學、清華大學、CMU、UIUC、騰訊、萊頓大學等機構共同撰寫并發布了目前最全面的深度研究智能體綜述《Deep Research: A Systematic Survey》 。 文章首先提出一條由淺入深的三階段能力發展路徑 , 隨后從系統視角系統化梳理關鍵組件 , 并進一步總結了對應的訓練與優化方法 。



GitHub:https://github.com/mangopy/Deep-Research-Survey Website:https://deep-research-survey.github.io/ 論文地址:https://deep-research-survey.github.io/static/doc/Deep-Research-Survey.pdf
什么是 Deep Research

DR 并非某一具體模型或技術 , 而是一條逐步演進的能力路徑 。 綜述刻畫了研究型智能體從信息獲取到完整科研流程的能力提升過程 。 基于對現有工作的梳理 , 可將這一演進劃分為三個階段 。

階段 1:「Agentic Search」 。 模型開始具備主動搜索與多步信息獲取能力 , 能夠根據中間結果動態調整查詢策略 , 其核心目標在于持續地找對關鍵信息 。 這一階段關注的是如何高效獲取外界信息 。

階段 2:「Integrated Research」 。 模型不再只是信息的收集者 , 而是能夠對多源證據進行理解、篩選和整合 , 最終生成邏輯連貫的報告 。

階段 3:「Full-stack AI Scientist」 。 模型進一步擴展到完整的科研閉環 , 具備提出研究假設、設計并執行實驗 , 以及基于結果進行反思與修正的能力 。 這一階段強調的不僅是推理深度 , 更是自主性與長期目標驅動的科研能力 。



Deep Research 的四大核心組件



1. 查詢規劃

查詢規劃主要負責在當前狀態下 , 決定下一步應該查詢什么信息 。 具體分為三類規劃策略:

順序規劃 , 將復雜問題拆解為線性的子問題序列 , 模型根據前一步的檢索結果逐步推進 , 適用于依賴關系明確的研究任務 。 并行規劃 , 同時生成多個相對獨立的子查詢 , 用于加速搜索或降低單一搜索路徑帶來的信息缺失 。 樹狀規劃 , 顯式建模子問題之間的層級與分支關系 , 允許模型在研究過程中進行探索與回溯 。
相比傳統 RAG 中一次性生成查詢的做法 , DR 將 “如何提問” 本身納入推理過程 , 使模型能夠在多輪研究中動態調整推理路徑 。



2. 信息獲取

論文從三個維度對現有的信息獲取方法進行歸納 。

(1)何時檢索:不同于固定步數或每輪必檢索的策略 , DR 智能體需要根據當前不確定性與信息缺口 , 動態判斷是否觸發檢索 , 以避免冗余查詢或過早依賴外部信息 。
(2)檢索什么: 在確定檢索時機后 , 從 Web 或外界知識庫中做檢索 , 包括多模態和純文本信息 。
(3)如何過濾檢索信息:面對噪聲較高的檢索結果 , 系統通常引入相關性判斷、一致性校驗或證據聚合機制 , 對外部信息進行篩選與整合 。

3. 記憶管理

在開放任務中 , 智能體往往需要跨越多輪交互、多個子問題與不同信息源 。 記憶模塊是支撐 DR 系統長期運行與持續推理的核心基礎設施 , 為系統提供狀態延續和經驗累積 , 使模型能夠使用長期長線推理任務 。 現有工作通常將記憶管理過程拆解為四個相互關聯的階段:記憶鞏固、記憶索引、記憶更新與記憶遺忘 。



4. 答案生成

與傳統生成任務不同 , DR 場景的問答更強調結論與證據之間的對應關系 , 以及整體論證過程的邏輯一致性 。 因此 , 通常需要智能體顯式整合多源證據與中間推理結果 , 使輸出不僅在語言層面連貫 , 還能夠支持事實核驗與過程回溯 。



如何訓練與優化 Deep Research 系統?

文中總結了三類具有代表性的方法:

提示工程:通過精心設計的多步提示構建研究流程 , 引導模型執行規劃、檢索與生成等步驟 , 適合快速構建原型 。 其效果高度依賴提示設計 , 泛化能力有限 。

監督微調:利用高質量推理軌跡 , 對智能體進行監督微調 。 該方法直觀有效 , 但獲取覆蓋復雜研究行為的標注數據成本較高 。

智能體強化學習: 通過強化學習信號直接優化 DR 智能體在多步決策過程中的行為策略 , 無需復雜人工標注 。 主要細分為兩種做法:

端到端優化:輸入到輸出的完整決策過程 , 聯合優化查詢規劃、檢索、信息整合與報告生成等多個環節 。 這種方式有助于智能體學會協調各個模塊 , 但是面臨獎勵稀疏、訓練不穩定以及采樣成本高等問題 。 優化特定模塊:僅對查詢規劃或調度等關鍵模塊施加強化學習信號 。 在保持系統其他模塊穩定性的同時 , 學習何時檢索、如何推理等單一策略 。 這種模塊化訓練顯著降低了訓練難度 , 更易于在現有系統中落地 。
Deep Research 真正難在哪里?

Deep Research 的核心挑戰并不在于單一能力的提升 , 而在于如何在長期、開放且不確定的研究流程中 , 實現穩定、可控且可評估的系統級行為 。 現有工作主要面臨以下幾方面的關鍵難題 。

(1)內部知識與外部知識的協同: 研究型智能體需要在自身參數化知識與外部檢索信息之間做出動態權衡 , 即在何時依賴內部推理、何時調用搜索工具 。

(2)訓練算法的穩定性:面向長線任務的訓練往往依賴強化學習等方法 , 但優化過程中容易出現策略退化或熵坍縮等問題 , 使智能體過早收斂到次優行為模式 , 限制其探索多樣化的推理路徑 。

(3)評估方法的構建: 如何合理評估研究型智能體仍是開放問題 。 綜述系統梳理了現有 benchmark 。



盡管相關數據集不斷涌現 , 構建可靠且高效的評估方法仍有待深入探索 , 尤其是在開放式任務中如何對 report-level 的模型輸出進行全面評估 。 當前廣泛采用的 LLM-as-a-judge 范式在實踐中展現出便利性 , 但仍不可避免地受到順序偏差 , 偏好 hacking 等問題的影響 , 限制了其作為測評方法的可靠性 。

(4)記憶模塊的構建:記憶模塊的構建是 DR 系統中最具挑戰性的部分之一 。 如何在記憶容量、檢索效率與信息可靠性之間取得平衡 , 并將記憶機制穩定地融入端到端訓練流程 , 仍是當前研究中的關鍵難題 。

結語 Deep Research

【系統學習Deep Research,這一篇綜述就夠了】Deep Research 并非對現有 RAG 的簡單擴展 , 而是智能體在能力、動作空間以及應用邊界上的一次轉變:從單輪的答案生成 , 走向面向開放問題的深度研究 。 目前 , 該方向仍處于早期階段 , 如何在開放環境中構建既具自主性、又具可信性的 Deep Research 智能體 , 仍是未來值得持續探索的重要問題 。 本文的 survey 也會持續更新 , 總結最新的進展 。

    推薦閱讀