搜索智能體的關鍵一課:先立目標,再照鏡子

搜索智能體的關鍵一課:先立目標,再照鏡子

文章圖片

搜索智能體的關鍵一課:先立目標,再照鏡子

文章圖片

搜索智能體的關鍵一課:先立目標,再照鏡子

文章圖片

搜索智能體的關鍵一課:先立目標,再照鏡子

文章圖片

搜索智能體的關鍵一課:先立目標,再照鏡子

文章圖片




隨著 AI 能力不斷增強 , 它正日益融入我們的工作與生活 。 我們也更愿意給予它更多「授權」 , 讓它主動去搜集信息、分析證據、做出判斷 。 搜索智能體正是 AI 觸達人類世界邁出的重要一步 。

然而 , 現實世界的搜索環境并不總是「信息增益」的來源;它也可能放大微小偏差、把模型帶入錯誤軌道 。 如何讓搜索智能體在復雜環境中更穩健 , 成為關鍵問題 。

近期 , 上海人工智能實驗室及合作單位提出了一個簡單而有效的思路:讓搜索智能體像人一樣 , 先「立目標」 , 再「照鏡子」 。 具體而言 , 模型在每一次搜索前都要明確「我想找什么」(goal-oriented planning) , 搜索后再判斷「是否找到」(self-reflection) 。

我們將這一思路實現為 RE-Searcher , 并在多個開放域問答與多跳推理任務上取得了新 SOTA 表現 , 同時顯著提升了對環境噪聲與搜索脆弱性的抵抗力 。



論文標題:RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection 論文鏈接:https://arxiv.org/abs/2509.26048
本文要點:

搜索環境是把雙刃劍:既可能帶來信息增益 , 也可能放大誤差; RE-Searcher 通過「目標規劃 + 自我反思」顯式約束搜索路徑 , 從錯誤軌跡中自我糾偏; 在 7 個數據集上平均表現達到 SOTA 水平 , 并在干擾測試中表現出顯著的穩健性 。
「信息增益」 or 「誤差增幅」

現實搜索并非總是「問一得十」 。 我們的分析表明 , 搜索環境的復雜性會顯著放大模型固有的隨機性 , 導致「同樣的問題 , 跑兩次 , 命運不同」的脆弱現象 。

如圖 1 所示 , 在相同數據上重復兩次推理 , 弱一些的基礎模型往往出現「隨機正確」(random right)比例接近或甚至高于「總是正確」(always right)的情況 。 這種隨機性極大削弱了模型的實際表現 。 這種不穩定的根源在于搜索過程的脆弱性 。


圖 1. 模型回答隨機性分析

如圖 2 所示 , 只對檢索式做細微改動(同義替換、增/刪一詞) , 檢索結果的語義相似度就可能大幅下降 , 許多樣本跌破 0.6 閾值 。 一個看似合理卻偏離主題的關鍵詞 , 足以把搜索引向錯誤分支 。


圖 2. 搜索結果脆弱性分析

直觀理解:如圖 3 所示 , 把檢索看作在「關鍵詞圖」上行走 。 一次小小的關鍵詞變化 , 可能讓智能體走進另一條支路;若后續優化都圍繞這條錯誤分支展開 , 越走越偏 , 難以回到正確答案 。 強模型(如 GPT-4o)有時能「自救」 , 但更普遍、可落地的方式 , 是讓模型從一開始就「立目標」 , 并在每一步都「照鏡子」 。


圖 3. 搜索脆弱性分析

「立目標」與「照鏡子」

【搜索智能體的關鍵一課:先立目標,再照鏡子】為了讓 AI 變得更穩健 , 研究團隊提出了 RE-Searcher 框架 。 其核心思想是模仿人類在處理復雜任務時的兩個關鍵認知行為:

「立目標」(Goal-Oriented Planning):在每次搜索前 , 不再是模糊地生成關鍵詞 , 而是明確地規劃出本次搜索想要達成的具體目標 。
「照鏡子」(Self-Reflection):在獲得搜索結果后 , 智能體必須進行反思 , 判斷返回的信息是否滿足了預設的目標 。 如果滿足 , 則進入下一步;如果不滿足 , 就需要調整搜索策略(比如修改關鍵詞) , 重新搜索 , 直到達成目標為止 。
為了實現這一點 , 如圖 4 所示 , 研究團隊設計了一套簡單卻有效的訓練機制 。 他們通過特定的指令模板(如使用goal、query、reflect標簽)來規范智能體的思考和行為格式 。

特別地 , 在「照鏡子」環節 , 團隊讓一個「教師模型」(如 GPT-4o-mini)來評判智能體的反思是否正確 , 并將評價結果作為獎勵信號 , 從而訓練智能體學會如何進行高質量的自我反思 。


圖 4. 訓練 pipeline

小例子:經過訓練的模型在一次多跳檢索中 , 搜索引擎曾把關鍵詞誤解為同名小說;RE-Searcher 在反思環節判定「未滿足目標」 , 只改了一個限定詞就把結果拉回正軌 。

實驗結果:
更穩健的搜索智能體

為了驗證 RE-Searcher 的效果 , 研究團隊進行了一系列詳盡的實驗 。

SOTA 表現與有效的反思行為

在包括 NQ、HotpotQA 在內的 7 個主流搜索問答數據集上 , RE-Searcher 取得了領先的表現 。 無論是在 3B 還是 7B 模型規模上 , RE-Searcher 的平均表現都超過了現有的基線模型 , 達到了新的 SOTA(State-of-the-art) 水平 。


圖 5. 主要性能表現

實驗還證明了「反思獎勵」的有效性 。 如果沒有這個獎勵 , 模型在反思時的判斷準確率僅在 50% 左右(相當于隨機猜測) 。 而加入獎勵后 , 模型的反思能力得到了顯著且穩定的提升 。


圖 7. 反思正確率變化曲線

有效抵抗「搜索脆弱性」

RE-Searcher 能否緩解前面提到的「隨機正確」問題?答案是肯定的 。

實驗數據顯示 , 經過訓練后 , RE-Searcher 的「隨機正確」比例大幅降低 。 以 7B 模型為例 , 其「隨機正確」率從 SFT(監督微調)模型的 17.09% 降低到了 8.74% , 幾乎減半 , 并且非常接近能力更強的 GPT-4o 的水平(8.32%) 。 這表明 , 智能體不再是「憑運氣」答對 , 而是真正具備了穩定解決問題的能力 。


圖 8. 隨機性變化效果

面對外部干擾 , 表現更「淡定」

為了模擬真實世界中更極端的噪聲 , 研究團隊設計了一個「壓力測試」:在智能體的第一次搜索時 , 人為地向其搜索查詢中引入干擾(如隨機增刪或替換詞語) , 觀察其性能下降程度 。

結果顯示 , RE-Searcher 表現出了極強的魯棒性 。 與基線模型 Search-R1 相比 , RE-Searcher (7B) 的性能下降幅度要小得多(12.73% vs 21.30%) , 幾乎與 GPT-4o 處于同一水平 。 這證明了「立目標、照鏡子」的策略使其不容易被初期的錯誤信息帶偏 , 具備更強的糾錯和恢復能力 。


圖 9. 抗干擾實驗結果展示

未來展望

RE-Searcher 的研究證明 , 通過教會 AI 智能體進行目標規劃和自我反思 , 可以顯著提升其在復雜環境中的穩健性和可靠性 。 隨著我們給予 AI 越來越多的自主權 , 它們將不可避免地與更加動態和不可預測的真實世界環境進行交互 。 如何確保它們在這一過程中行事穩健、值得信賴 , 是一個需要持續探索的重要課題 。 這項工作為構建更強大、更負責任的自主智能體邁出了堅實的一步 。

    推薦閱讀