搜索智能體的關鍵一課：先立目標，再照鏡子

2026-04-13 ai 人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

隨著 AI 能力不斷增強，它正日益融入我們的工作與生活。我們也更愿意給予它更多「授權」，讓它主動去搜集信息、分析證據、做出判斷。搜索智能體正是 AI 觸達人類世界邁出的重要一步。

然而，現實世界的搜索環境并不總是「信息增益」的來源；它也可能放大微小偏差、把模型帶入錯誤軌道。如何讓搜索智能體在復雜環境中更穩健，成為關鍵問題。

近期，上海人工智能實驗室及合作單位提出了一個簡單而有效的思路：讓搜索智能體像人一樣，先「立目標」，再「照鏡子」。具體而言，模型在每一次搜索前都要明確「我想找什么」（goal-oriented planning），搜索后再判斷「是否找到」（self-reflection）。

我們將這一思路實現為 RE-Searcher ，并在多個開放域問答與多跳推理任務上取得了新 SOTA 表現，同時顯著提升了對環境噪聲與搜索脆弱性的抵抗力。

論文標題：RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection 論文鏈接：https://arxiv.org/abs/2509.26048
本文要點：

搜索環境是把雙刃劍：既可能帶來信息增益，也可能放大誤差； RE-Searcher 通過「目標規劃 + 自我反思」顯式約束搜索路徑，從錯誤軌跡中自我糾偏；在 7 個數據集上平均表現達到 SOTA 水平，并在干擾測試中表現出顯著的穩健性。
「信息增益」 or 「誤差增幅」

現實搜索并非總是「問一得十」。我們的分析表明，搜索環境的復雜性會顯著放大模型固有的隨機性，導致「同樣的問題，跑兩次，命運不同」的脆弱現象。

如圖 1 所示，在相同數據上重復兩次推理，弱一些的基礎模型往往出現「隨機正確」（random right）比例接近或甚至高于「總是正確」（always right）的情況。這種隨機性極大削弱了模型的實際表現。這種不穩定的根源在于搜索過程的脆弱性。

圖 1. 模型回答隨機性分析

如圖 2 所示，只對檢索式做細微改動（同義替換、增/刪一詞），檢索結果的語義相似度就可能大幅下降，許多樣本跌破 0.6 閾值。一個看似合理卻偏離主題的關鍵詞，足以把搜索引向錯誤分支。

圖 2. 搜索結果脆弱性分析

直觀理解：如圖 3 所示，把檢索看作在「關鍵詞圖」上行走。一次小小的關鍵詞變化，可能讓智能體走進另一條支路；若后續優化都圍繞這條錯誤分支展開，越走越偏，難以回到正確答案。強模型（如 GPT-4o）有時能「自救」，但更普遍、可落地的方式，是讓模型從一開始就「立目標」，并在每一步都「照鏡子」。

圖 3. 搜索脆弱性分析

「立目標」與「照鏡子」

【搜索智能體的關鍵一課：先立目標，再照鏡子】為了讓 AI 變得更穩健，研究團隊提出了 RE-Searcher 框架。其核心思想是模仿人類在處理復雜任務時的兩個關鍵認知行為：

「立目標」（Goal-Oriented Planning）：在每次搜索前，不再是模糊地生成關鍵詞，而是明確地規劃出本次搜索想要達成的具體目標。
「照鏡子」（Self-Reflection）：在獲得搜索結果后，智能體必須進行反思，判斷返回的信息是否滿足了預設的目標。如果滿足，則進入下一步；如果不滿足，就需要調整搜索策略（比如修改關鍵詞），重新搜索，直到達成目標為止。
為了實現這一點，如圖 4 所示，研究團隊設計了一套簡單卻有效的訓練機制。他們通過特定的指令模板（如使用goal、query、reflect標簽）來規范智能體的思考和行為格式。

特別地，在「照鏡子」環節，團隊讓一個「教師模型」（如 GPT-4o-mini）來評判智能體的反思是否正確，并將評價結果作為獎勵信號，從而訓練智能體學會如何進行高質量的自我反思。

圖 4. 訓練 pipeline

小例子：經過訓練的模型在一次多跳檢索中，搜索引擎曾把關鍵詞誤解為同名小說；RE-Searcher 在反思環節判定「未滿足目標」，只改了一個限定詞就把結果拉回正軌。

實驗結果：
更穩健的搜索智能體

為了驗證 RE-Searcher 的效果，研究團隊進行了一系列詳盡的實驗。

SOTA 表現與有效的反思行為

在包括 NQ、HotpotQA 在內的 7 個主流搜索問答數據集上， RE-Searcher 取得了領先的表現。無論是在 3B 還是 7B 模型規模上， RE-Searcher 的平均表現都超過了現有的基線模型，達到了新的 SOTA（State-of-the-art）水平。

圖 5. 主要性能表現

實驗還證明了「反思獎勵」的有效性。如果沒有這個獎勵，模型在反思時的判斷準確率僅在 50% 左右（相當于隨機猜測）。而加入獎勵后，模型的反思能力得到了顯著且穩定的提升。

圖 7. 反思正確率變化曲線

有效抵抗「搜索脆弱性」

RE-Searcher 能否緩解前面提到的「隨機正確」問題？答案是肯定的。

實驗數據顯示，經過訓練后， RE-Searcher 的「隨機正確」比例大幅降低。以 7B 模型為例，其「隨機正確」率從 SFT（監督微調）模型的 17.09% 降低到了 8.74% ，幾乎減半，并且非常接近能力更強的 GPT-4o 的水平（8.32%）。這表明，智能體不再是「憑運氣」答對，而是真正具備了穩定解決問題的能力。

圖 8. 隨機性變化效果

面對外部干擾，表現更「淡定」

為了模擬真實世界中更極端的噪聲，研究團隊設計了一個「壓力測試」：在智能體的第一次搜索時，人為地向其搜索查詢中引入干擾（如隨機增刪或替換詞語），觀察其性能下降程度。

結果顯示， RE-Searcher 表現出了極強的魯棒性。與基線模型 Search-R1 相比， RE-Searcher (7B) 的性能下降幅度要小得多（12.73% vs 21.30%），幾乎與 GPT-4o 處于同一水平。這證明了「立目標、照鏡子」的策略使其不容易被初期的錯誤信息帶偏，具備更強的糾錯和恢復能力。

圖 9. 抗干擾實驗結果展示

未來展望

RE-Searcher 的研究證明，通過教會 AI 智能體進行目標規劃和自我反思，可以顯著提升其在復雜環境中的穩健性和可靠性。隨著我們給予 AI 越來越多的自主權，它們將不可避免地與更加動態和不可預測的真實世界環境進行交互。如何確保它們在這一過程中行事穩健、值得信賴，是一個需要持續探索的重要課題。這項工作為構建更強大、更負責任的自主智能體邁出了堅實的一步。

推薦閱讀

上一篇：10月本報硬件BestBuy排行榜

下一篇：騰訊ima公布2.0 開啟任務模式內測可通過agent能力生成報告和播客