告別「一條路走到黑」：通過(guò)自我糾錯(cuò)，打造更聰明的Search Agent_機(jī)器人|芯片|特斯拉|人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

為了同時(shí)解決知識(shí)的實(shí)時(shí)性和推理的復(fù)雜性這兩大挑戰(zhàn) ，搜索智能體（Search Agent）應(yīng)運(yùn)而生。它與 RAG 的核心區(qū)別在于， Search Agent 能夠通過(guò)與實(shí)時(shí)搜索引擎進(jìn)行多輪交互來(lái)分解并執(zhí)行復(fù)雜任務(wù) 。這種能力在人物畫像構(gòu)建，偏好搜索等任務(wù)中至關(guān)重要，因?yàn)樗苣M人類專家進(jìn)行深度、實(shí)時(shí)的資料挖掘。
但 Search Agent 經(jīng)常面臨著一個(gè)棘手的瓶頸：缺乏過(guò)程中的自我糾錯(cuò)能力。現(xiàn)有的智能體一旦在推理早期因一個(gè)模糊的查詢而走上錯(cuò)誤的路徑，就會(huì)基于這個(gè)錯(cuò)誤結(jié)果繼續(xù)執(zhí)行，引發(fā)連鎖式錯(cuò)誤（Cascading Errors），最終導(dǎo)致整個(gè)任務(wù)失敗。
為了攻克這一難題，騰訊內(nèi)容算法中心聯(lián)合清華大學(xué) ，近期提出 ReSeek 框架，它不是對(duì) RAG 的簡(jiǎn)單改進(jìn) ，而是對(duì) Search Agent 核心邏輯的一次重塑。
ReSeek 的關(guān)鍵在于引入了動(dòng)態(tài)自我修正機(jī)制，允許智能體在執(zhí)行過(guò)程中主動(dòng)評(píng)估每一步行動(dòng)的有效性。一旦發(fā)現(xiàn)路徑無(wú)效或信息錯(cuò)誤，它就能及時(shí)回溯并探索新的可能性，從而避免「一條路走到黑」。

論文地址：https://arxiv.org/pdf/2510.00568 開源模型及數(shù)據(jù)集地址：https://huggingface.co/collections/TencentBAC/reseek Github 地址：https://github.com/TencentBAC/ReSeek連鎖式錯(cuò)誤：一步錯(cuò) ，步步錯(cuò)
連鎖式錯(cuò)誤指的是，智能體在多步推理鏈的早期，哪怕只犯了一個(gè)微小的錯(cuò)誤，也會(huì)像推倒第一塊多米諾骨牌一樣，導(dǎo)致后續(xù)所有步驟都建立在錯(cuò)誤的基礎(chǔ)之上，最終使整個(gè)任務(wù)走向完全失敗。
這個(gè)過(guò)程可以分解為以下幾個(gè)階段：
初始偏差：任務(wù)起點(diǎn)是「美國(guó)上一任總統(tǒng)哪一年出生的」？智能體沒有先去識(shí)別「上一任總統(tǒng)」是誰(shuí) ，而是直接將整個(gè)模糊問題扔給搜索引擎，這種跳過(guò)推理、依賴直接搜索的策略就是最初的偏差。錯(cuò)誤固化：搜索結(jié)果中可能同時(shí)出現(xiàn)了「特朗普」「總統(tǒng)」和「出生年份」等信息，智能體從中錯(cuò)誤地提取并認(rèn)定了「上一任總統(tǒng)就是特朗普」，它沒有停下來(lái)驗(yàn)證這個(gè)信息的準(zhǔn)確性，而是將這個(gè)未經(jīng)證實(shí)的猜測(cè)固化為后續(xù)步驟不可動(dòng)搖的事實(shí)依據(jù) 。無(wú)效執(zhí)行：智能體基于「上一任總統(tǒng)是特朗普」這個(gè)前提，去執(zhí)行搜索「特朗普的出生年份」的指令。接著智能體抓取了年份「1946」（這是特朗普的出生年份），這個(gè)執(zhí)行步驟本質(zhì)上是一次無(wú)效執(zhí)行。任務(wù)失敗：最終，智能體給出了一個(gè)完全錯(cuò)誤的答案：「美國(guó)上一任總統(tǒng)出生于 1946 年。」這個(gè)結(jié)果與事實(shí)（正確應(yīng)為 1942 年）完全不符，它錯(cuò)誤地將一個(gè)人的信息安在了另一個(gè)人身上，直接導(dǎo)致了任務(wù)的徹底失敗。
根源何在？「執(zhí)行者」而非「思考者」
【告別「一條路走到黑」：通過(guò)自我糾錯(cuò)，打造更聰明的Search Agent】為什么當(dāng)前的搜索智能體會(huì)如此脆弱？根源在于它們?cè)谠O(shè)計(jì)上更偏向一個(gè)「忠實(shí)的執(zhí)行者」，而非一個(gè)「批判性的思考者」。
缺乏反思機(jī)制：智能體遵循一個(gè)線性的「思考 - 行動(dòng)」循環(huán)（Think-Act Loop），但缺少一個(gè)關(guān)鍵的「反思 - 修正」環(huán)節(jié)（Reflect-Correct Loop）。它不會(huì)在得到中間結(jié)果后，與最初的目標(biāo)和約束條件進(jìn)行比對(duì)和審視，評(píng)估當(dāng)前路徑的合理性。對(duì)中間結(jié)果的「盲信」：智能體將每一步的輸出都視為不容置疑的「事實(shí)」，并將其直接作為下一步的輸入。這種對(duì)中間結(jié)果的過(guò)度自信，使其無(wú)法從錯(cuò)誤的路徑中抽身。因此，當(dāng)前搜索智能體的脆弱性在于其推理鏈的剛性。它擅長(zhǎng)沿著一條既定路線走到底，卻不具備在發(fā)現(xiàn)路走不通時(shí) ，掉頭或另尋他路的能力。要讓智能體真正變得魯棒和可靠，未來(lái)的關(guān)鍵突破方向在于：賦予智能體自我反思和動(dòng)態(tài)糾錯(cuò)的能力，讓它從一個(gè)只會(huì)「一條路走到黑」的執(zhí)行者，進(jìn)化成一個(gè)懂得「三思而后行、及時(shí)止損」的思考者。
讓 Agent 具備元認(rèn)知能力
為了賦予智能體自我反思和動(dòng)態(tài)糾錯(cuò)的能力，團(tuán)隊(duì)擴(kuò)展了 Agent 動(dòng)作空間，引入了一個(gè)核心的 JUDGE 動(dòng)作。該動(dòng)作在每次信息獲取后被調(diào)用，用于評(píng)估新信息的有效性。

自我糾錯(cuò)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

這種獎(jiǎng)勵(lì)塑造（Reward Shaping）策略為智能體提供了密集的、步進(jìn)式的反饋，引導(dǎo)其逐步學(xué)會(huì)如何準(zhǔn)確評(píng)估信息價(jià)值，從而使 JUDGE 動(dòng)作真正有效。
FictionalHot 基準(zhǔn)的構(gòu)建
為了公正且嚴(yán)格地評(píng)估智能體的真實(shí)推理能力，團(tuán)隊(duì)構(gòu)建了 FictionalHot 數(shù)據(jù)集。其核心目標(biāo)是創(chuàng)建一個(gè)封閉世界（closed-world）的評(píng)測(cè)環(huán)境，以消除預(yù)訓(xùn)練模型因「記憶」了訓(xùn)練數(shù)據(jù)而帶來(lái)的評(píng)估偏差（即「數(shù)據(jù)污染」問題）。
構(gòu)建流程如下：
采樣與改寫：從現(xiàn)有的問答數(shù)據(jù)集中采樣種子問題，并利用大模型對(duì)問題進(jìn)行改寫，將其中所有真實(shí)世界的實(shí)體（人名、地名、事件等）替換為虛構(gòu)實(shí)體，同時(shí)保持原問題復(fù)雜的推理結(jié)構(gòu)不變。生成虛構(gòu)知識(shí)：為每一個(gè)虛構(gòu)實(shí)體生成對(duì)應(yīng)的、維基百科風(fēng)格的說(shuō)明文檔。這些文檔是解決新問題的唯一事實(shí)來(lái)源。構(gòu)建封閉知識(shí)庫(kù)：將這些生成的虛構(gòu)文檔注入到一個(gè)標(biāo)準(zhǔn)的維基百科語(yǔ)料庫(kù)中，形成一個(gè)封閉且受控的知識(shí)環(huán)境。通過(guò)這種設(shè)計(jì) ， FictionalHot 迫使智能體必須依賴其程序化的搜索、整合與推理能力來(lái)解決問題，而不是依賴其參數(shù)中存儲(chǔ)的先驗(yàn)知識(shí) 。這樣能夠更干凈、更準(zhǔn)確地評(píng)估 ReSeek 框架在提升智能體核心能力方面的真實(shí)效果。

多數(shù)研究實(shí)驗(yàn)設(shè)置不一致
當(dāng)前，對(duì) Search Agent 的評(píng)估面臨著實(shí)驗(yàn)設(shè)置的不一致的挑戰(zhàn) 。現(xiàn)有研究在多個(gè)關(guān)鍵方面存在差異：
知識(shí)庫(kù) (Corpus): 使用的知識(shí)源各不相同，從靜態(tài)的維基百科快照（如 2018、2019 年版）到無(wú)法復(fù)現(xiàn)的實(shí)時(shí)互聯(lián)網(wǎng) ，差異巨大。測(cè)試集 (Test Sets): 有的研究使用涵蓋多種任務(wù)的廣泛測(cè)試集（如 NQ TriviaQA 等，集合 A），有的則專注于需要復(fù)雜推理的多跳問答任務(wù)（如 HotpotQA Musique 等，集合 B）。訓(xùn)練方式 (Training Regimes): 模型的訓(xùn)練策略也五花八門，從完全不訓(xùn)練，到在單個(gè)或多個(gè)不同數(shù)據(jù)集上進(jìn)行訓(xùn)練。評(píng)估指標(biāo) (Metrics): 評(píng)估標(biāo)準(zhǔn)同樣不統(tǒng)一，涵蓋了從精確匹配（Exact Match）和 F1 分?jǐn)?shù) ，到使用大模型作為評(píng)判者（LLM-as-a-judge LJ）等多種方式。
為了確保公平的比較， Reseek 采用了最普遍的訓(xùn)練方法，在 NQ 和 TriviaQA 的訓(xùn)練集上進(jìn)行訓(xùn)練，并采用精確匹配（Exact Match EM）作為主要評(píng)估指標(biāo) 。該模型在 7 個(gè)主流的公開問答數(shù)據(jù)集上進(jìn)行了測(cè)試，涵蓋了從簡(jiǎn)單事實(shí)查詢到復(fù)雜多跳推理（如 HotpotQA）的各種任務(wù) 。
此外， Reseek 還在自建的 FictionalHot 數(shù)據(jù)集上進(jìn)行了測(cè)試。該數(shù)據(jù)集通過(guò)虛構(gòu)內(nèi)容，徹底杜絕了 “數(shù)據(jù)污染” 問題，能夠更公平地評(píng)估模型的真實(shí)推理能力。
主要結(jié)果
實(shí)驗(yàn)結(jié)果表明， ReSeek 在 3B 和 7B 參數(shù)規(guī)模上均達(dá)到了業(yè)界領(lǐng)先的平均性能。該模型在 HotpotQA 和 Bamboogle 等需要復(fù)雜多跳推理的基準(zhǔn)上優(yōu)勢(shì)尤為突出，這證明了其自我糾錯(cuò)范式在處理復(fù)雜問題上的高效性。
在 FictionalHot 基準(zhǔn)上的測(cè)試揭示了一個(gè)關(guān)鍵現(xiàn)象：模型規(guī)模（7B vs. 3B）對(duì)性能的影響顯著減小。這表明 FictionalHot 成功地消除了模型因規(guī)模增大而產(chǎn)生的記憶優(yōu)勢(shì) ，從而能夠更準(zhǔn)確地衡量其程序化推理能力，凸顯了該基準(zhǔn)的評(píng)估價(jià)值。

交互輪次越多，模型效果越好？
為了分離行動(dòng)預(yù)算（action budget）的影響并檢驗(yàn)?zāi)Ｐ偷牡阶晕壹m錯(cuò)能力，團(tuán)隊(duì)對(duì)最大交互輪數(shù)（turns）進(jìn)行了消融實(shí)驗(yàn) 。此處的「交互輪數(shù)」定義為模型為單個(gè)查詢可執(zhí)行的最大動(dòng)作次數(shù) 。該設(shè)置旨在驗(yàn)證額外的動(dòng)作步驟能否幫助模型復(fù)核證據(jù)、修正假設(shè) ，或者其性能是否在一次「搜索 - 回答」的最小循環(huán)后即已飽和。
如下圖，基線模型（baselines）的性能從一輪增至兩輪時(shí)有顯著提升，但在三輪和四輪時(shí)幾乎停滯，這與其典型的兩步工作流（搜索后回答）相符。
相比之下， ReSeek 的性能從一輪到四輪單調(diào)遞增，展現(xiàn)了更強(qiáng)的自我糾錯(cuò)能力：當(dāng)交互輪數(shù)更充裕時(shí) ，它會(huì)在不確定時(shí)重新查詢證據(jù)、優(yōu)化規(guī)劃并修正答案。平均性能也印證了這一趨勢(shì) ， ReSeek 取得了最高的平均分，證明該方法能將更多的交互預(yù)算轉(zhuǎn)化為真實(shí)的性能增益，而非冗余操作。

JUDGE 機(jī)制到底有沒有用？
為了更深入地理解判斷器（Judge）機(jī)制在具體案例中的作用，而不僅僅是看最終的宏觀分?jǐn)?shù) ，團(tuán)隊(duì)對(duì)其行為進(jìn)行了細(xì)致的逐例分析。根據(jù)判斷器干預(yù)所產(chǎn)生的實(shí)際效果，將其分為三類（見下圖）：
積極影響 (藍(lán)色): 這類情況代表判斷器的干預(yù)帶來(lái)了明確的好處。例如：(1) 當(dāng)模型狀態(tài)能夠?qū)蛘_答案時(shí) ，判斷器正確地給出了「是」的信號(hào)；(2) 當(dāng)檢索到的信息不包含答案時(shí) ，判斷器正確地給出「否」的信號(hào) ，成功阻止了模型被錯(cuò)誤信息干擾。負(fù)面影響 (紅色): 這類情況代表了判斷器的干預(yù)起到了反作用。具體來(lái)說(shuō) ，就是判斷器發(fā)出了「是」的信號(hào)（認(rèn)為當(dāng)前信息足以回答問題），但模型最終還是給出了錯(cuò)誤答案。中性影響 (綠色): 其余所有情況歸為此類，表示判斷器的作用不明確或?yàn)橹行?。分析結(jié)果非常清晰：在全部的測(cè)試上，「積極影響」的比例都非常高，穩(wěn)定在 40-50% 之間。相比之下，「負(fù)面影響」的比例最低，通常不到 25% 。正面與負(fù)面影響之間的這種顯著差距，充分證明了該設(shè)計(jì)的有效性。這一質(zhì)性證據(jù)表明，判斷器是整個(gè)框架中一個(gè)可靠且高效的關(guān)鍵組件。

展望
ReSeek 框架的核心價(jià)值在于為復(fù)雜的業(yè)務(wù)場(chǎng)景提供高可靠性的決策支持。在需要實(shí)時(shí)數(shù)據(jù)或熱點(diǎn)理解等領(lǐng)域，簡(jiǎn)單的「檢索 - 生成」已無(wú)法滿足需求。這些任務(wù)不僅要求信息實(shí)時(shí) ，更要求推理過(guò)程的嚴(yán)謹(jǐn)無(wú)誤。 ReSeek 的自我糾錯(cuò)機(jī)制，正是為了解決這一痛點(diǎn) ，通過(guò)賦予 Agent「反思」和「修正」的能力，顯著降低因單點(diǎn)錯(cuò)誤導(dǎo)致全盤失敗的風(fēng)險(xiǎn) ，提升復(fù)雜任務(wù)的成功率。
當(dāng)然，通往通用智能 Agent 的道路充滿挑戰(zhàn) 。當(dāng)前的訓(xùn)練數(shù)據(jù)還不充分，距離實(shí)際落地還有一定距離，還面臨一些有待解決問題和算法挑戰(zhàn) ，相信在未來(lái) ， Search Agent 能夠作為一種基本的 Agent 范式，服務(wù)于每一位用戶。

告別「一條路走到黑」：通過(guò)自我糾錯(cuò)，打造更聰明的Search Agent

推薦閱讀

瓜田李下是什么意思瓜田李下是什么意思解釋

破壁機(jī)打不熟豆?jié){怎么回事-破壁機(jī)打豆?jié){沒熟怎么辦

心理健康手抄報(bào)內(nèi)容心理健康手抄報(bào)小學(xué)生

水燒開了但是涼了還可以喝嗎

刷6.43出現(xiàn)錯(cuò)誤信息解決辦法

地線有電怎么回事

高中+中職 2022武漢中考錄取資格線

門過(guò)梁拆除后如何加固

一眼看穿：十招教您防范網(wǎng)絡(luò)欺詐

描寫兔子的作文三年級(jí)【通用8篇】

抖音怎么美顏

小編分享酷我音樂怎樣關(guān)閉進(jìn)入啟動(dòng)音效

起訴離婚起訴多久開庭起訴離婚拒絕調(diào)解后多久開庭

涼拌黃瓜怎么切

攜程廣州預(yù)訂部地址電話號(hào)碼是多少，攜程網(wǎng) 訂票電話是多少

盛世三國(guó)歷練五怎么過(guò),感謝冬奧對(duì)我的歷練