日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

告別「一條路走到黑」:通過(guò)自我糾錯(cuò),打造更聰明的Search Agent

告別「一條路走到黑」:通過(guò)自我糾錯(cuò),打造更聰明的Search Agent

文章圖片

告別「一條路走到黑」:通過(guò)自我糾錯(cuò),打造更聰明的Search Agent

文章圖片

告別「一條路走到黑」:通過(guò)自我糾錯(cuò),打造更聰明的Search Agent

文章圖片

告別「一條路走到黑」:通過(guò)自我糾錯(cuò),打造更聰明的Search Agent

文章圖片

告別「一條路走到黑」:通過(guò)自我糾錯(cuò),打造更聰明的Search Agent

文章圖片

告別「一條路走到黑」:通過(guò)自我糾錯(cuò),打造更聰明的Search Agent

文章圖片

告別「一條路走到黑」:通過(guò)自我糾錯(cuò),打造更聰明的Search Agent

文章圖片

告別「一條路走到黑」:通過(guò)自我糾錯(cuò),打造更聰明的Search Agent


為了同時(shí)解決知識(shí)的實(shí)時(shí)性和推理的復(fù)雜性這兩大挑戰(zhàn) , 搜索智能體(Search Agent)應(yīng)運(yùn)而生 。 它與 RAG 的核心區(qū)別在于 , Search Agent 能夠通過(guò)與實(shí)時(shí)搜索引擎進(jìn)行多輪交互來(lái)分解并執(zhí)行復(fù)雜任務(wù) 。 這種能力在人物畫像構(gòu)建 , 偏好搜索等任務(wù)中至關(guān)重要 , 因?yàn)樗苣M人類專家進(jìn)行深度、實(shí)時(shí)的資料挖掘 。
但 Search Agent 經(jīng)常面臨著一個(gè)棘手的瓶頸:缺乏過(guò)程中的自我糾錯(cuò)能力 。 現(xiàn)有的智能體一旦在推理早期因一個(gè)模糊的查詢而走上錯(cuò)誤的路徑 , 就會(huì)基于這個(gè)錯(cuò)誤結(jié)果繼續(xù)執(zhí)行 , 引發(fā)連鎖式錯(cuò)誤(Cascading Errors) , 最終導(dǎo)致整個(gè)任務(wù)失敗 。
為了攻克這一難題 , 騰訊內(nèi)容算法中心聯(lián)合清華大學(xué) , 近期提出 ReSeek 框架 , 它不是對(duì) RAG 的簡(jiǎn)單改進(jìn) , 而是對(duì) Search Agent 核心邏輯的一次重塑 。
ReSeek 的關(guān)鍵在于引入了動(dòng)態(tài)自我修正機(jī)制 , 允許智能體在執(zhí)行過(guò)程中主動(dòng)評(píng)估每一步行動(dòng)的有效性 。 一旦發(fā)現(xiàn)路徑無(wú)效或信息錯(cuò)誤 , 它就能及時(shí)回溯并探索新的可能性 , 從而避免「一條路走到黑」 。

論文地址:https://arxiv.org/pdf/2510.00568 開源模型及數(shù)據(jù)集地址:https://huggingface.co/collections/TencentBAC/reseek Github 地址:https://github.com/TencentBAC/ReSeek連鎖式錯(cuò)誤:一步錯(cuò) , 步步錯(cuò)
連鎖式錯(cuò)誤指的是 , 智能體在多步推理鏈的早期 , 哪怕只犯了一個(gè)微小的錯(cuò)誤 , 也會(huì)像推倒第一塊多米諾骨牌一樣 , 導(dǎo)致后續(xù)所有步驟都建立在錯(cuò)誤的基礎(chǔ)之上 , 最終使整個(gè)任務(wù)走向完全失敗 。
這個(gè)過(guò)程可以分解為以下幾個(gè)階段:
初始偏差:任務(wù)起點(diǎn)是「美國(guó)上一任總統(tǒng)哪一年出生的」?智能體沒有先去識(shí)別 「上一任總統(tǒng)」是誰(shuí) , 而是直接將整個(gè)模糊問題扔給搜索引擎 , 這種跳過(guò)推理、依賴直接搜索的策略就是最初的偏差 。錯(cuò)誤固化:搜索結(jié)果中可能同時(shí)出現(xiàn)了「特朗普」「總統(tǒng)」和「出生年份」等信息 , 智能體從中錯(cuò)誤地提取并認(rèn)定了「上一任總統(tǒng)就是特朗普」 , 它沒有停下來(lái)驗(yàn)證這個(gè)信息的準(zhǔn)確性 , 而是將這個(gè)未經(jīng)證實(shí)的猜測(cè)固化為后續(xù)步驟不可動(dòng)搖的事實(shí)依據(jù) 。無(wú)效執(zhí)行:智能體基于「上一任總統(tǒng)是特朗普」這個(gè)前提 , 去執(zhí)行搜索「特朗普的出生年份」的指令 。 接著智能體抓取了年份「1946」(這是特朗普的出生年份) , 這個(gè)執(zhí)行步驟本質(zhì)上是一次無(wú)效執(zhí)行 。任務(wù)失敗:最終 , 智能體給出了一個(gè)完全錯(cuò)誤的答案:「美國(guó)上一任總統(tǒng)出生于 1946 年 。 」這個(gè)結(jié)果與事實(shí)(正確應(yīng)為 1942 年)完全不符 , 它錯(cuò)誤地將一個(gè)人的信息安在了另一個(gè)人身上 , 直接導(dǎo)致了任務(wù)的徹底失敗 。
根源何在?「執(zhí)行者」而非「思考者」
【告別「一條路走到黑」:通過(guò)自我糾錯(cuò),打造更聰明的Search Agent】為什么當(dāng)前的搜索智能體會(huì)如此脆弱?根源在于它們?cè)谠O(shè)計(jì)上更偏向一個(gè)「忠實(shí)的執(zhí)行者」 , 而非一個(gè)「批判性的思考者」 。
缺乏反思機(jī)制:智能體遵循一個(gè)線性的「思考 - 行動(dòng)」循環(huán)(Think-Act Loop) , 但缺少一個(gè)關(guān)鍵的「反思 - 修正」環(huán)節(jié)(Reflect-Correct Loop) 。 它不會(huì)在得到中間結(jié)果后 , 與最初的目標(biāo)和約束條件進(jìn)行比對(duì)和審視 , 評(píng)估當(dāng)前路徑的合理性 。 對(duì)中間結(jié)果的「盲信」:智能體將每一步的輸出都視為不容置疑的「事實(shí)」 , 并將其直接作為下一步的輸入 。 這種對(duì)中間結(jié)果的過(guò)度自信 , 使其無(wú)法從錯(cuò)誤的路徑中抽身 。因此 , 當(dāng)前搜索智能體的脆弱性在于其推理鏈的剛性 。 它擅長(zhǎng)沿著一條既定路線走到底 , 卻不具備在發(fā)現(xiàn)路走不通時(shí) , 掉頭或另尋他路的能力 。 要讓智能體真正變得魯棒和可靠 , 未來(lái)的關(guān)鍵突破方向在于:賦予智能體自我反思和動(dòng)態(tài)糾錯(cuò)的能力 , 讓它從一個(gè)只會(huì)「一條路走到黑」的執(zhí)行者 , 進(jìn)化成一個(gè)懂得「三思而后行、及時(shí)止損」的思考者 。
讓 Agent 具備元認(rèn)知能力
為了賦予智能體自我反思和動(dòng)態(tài)糾錯(cuò)的能力 , 團(tuán)隊(duì)擴(kuò)展了 Agent 動(dòng)作空間 , 引入了一個(gè)核心的 JUDGE 動(dòng)作 。 該動(dòng)作在每次信息獲取后被調(diào)用 , 用于評(píng)估新信息的有效性 。




自我糾錯(cuò)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)



這種獎(jiǎng)勵(lì)塑造(Reward Shaping)策略為智能體提供了密集的、步進(jìn)式的反饋 , 引導(dǎo)其逐步學(xué)會(huì)如何準(zhǔn)確評(píng)估信息價(jià)值 , 從而使 JUDGE 動(dòng)作真正有效 。
FictionalHot 基準(zhǔn)的構(gòu)建
為了公正且嚴(yán)格地評(píng)估智能體的真實(shí)推理能力 , 團(tuán)隊(duì)構(gòu)建了 FictionalHot 數(shù)據(jù)集 。 其核心目標(biāo)是創(chuàng)建一個(gè)封閉世界(closed-world)的評(píng)測(cè)環(huán)境 , 以消除預(yù)訓(xùn)練模型因「記憶」了訓(xùn)練數(shù)據(jù)而帶來(lái)的評(píng)估偏差(即「數(shù)據(jù)污染」問題) 。
構(gòu)建流程如下:
采樣與改寫:從現(xiàn)有的問答數(shù)據(jù)集中采樣種子問題 , 并利用大模型對(duì)問題進(jìn)行改寫 , 將其中所有真實(shí)世界的實(shí)體(人名、地名、事件等)替換為虛構(gòu)實(shí)體 , 同時(shí)保持原問題復(fù)雜的推理結(jié)構(gòu)不變 。生成虛構(gòu)知識(shí):為每一個(gè)虛構(gòu)實(shí)體生成對(duì)應(yīng)的、維基百科風(fēng)格的說(shuō)明文檔 。 這些文檔是解決新問題的唯一事實(shí)來(lái)源 。構(gòu)建封閉知識(shí)庫(kù):將這些生成的虛構(gòu)文檔注入到一個(gè)標(biāo)準(zhǔn)的維基百科語(yǔ)料庫(kù)中 , 形成一個(gè)封閉且受控的知識(shí)環(huán)境 。通過(guò)這種設(shè)計(jì) , FictionalHot 迫使智能體必須依賴其程序化的搜索、整合與推理能力來(lái)解決問題 , 而不是依賴其參數(shù)中存儲(chǔ)的先驗(yàn)知識(shí) 。 這樣能夠更干凈、更準(zhǔn)確地評(píng)估 ReSeek 框架在提升智能體核心能力方面的真實(shí)效果 。

多數(shù)研究實(shí)驗(yàn)設(shè)置不一致
當(dāng)前 , 對(duì) Search Agent 的評(píng)估面臨著實(shí)驗(yàn)設(shè)置的不一致的挑戰(zhàn) 。 現(xiàn)有研究在多個(gè)關(guān)鍵方面存在差異:
知識(shí)庫(kù) (Corpus): 使用的知識(shí)源各不相同 , 從靜態(tài)的維基百科快照(如 2018、2019 年版)到無(wú)法復(fù)現(xiàn)的實(shí)時(shí)互聯(lián)網(wǎng) , 差異巨大 。測(cè)試集 (Test Sets): 有的研究使用涵蓋多種任務(wù)的廣泛測(cè)試集(如 NQ TriviaQA 等 , 集合 A) , 有的則專注于需要復(fù)雜推理的多跳問答任務(wù)(如 HotpotQA Musique 等 , 集合 B) 。訓(xùn)練方式 (Training Regimes): 模型的訓(xùn)練策略也五花八門 , 從完全不訓(xùn)練 , 到在單個(gè)或多個(gè)不同數(shù)據(jù)集上進(jìn)行訓(xùn)練 。評(píng)估指標(biāo) (Metrics): 評(píng)估標(biāo)準(zhǔn)同樣不統(tǒng)一 , 涵蓋了從精確匹配(Exact Match)和 F1 分?jǐn)?shù) , 到使用大模型作為評(píng)判者(LLM-as-a-judge LJ)等多種方式 。
為了確保公平的比較 , Reseek 采用了最普遍的訓(xùn)練方法 , 在 NQ 和 TriviaQA 的訓(xùn)練集上進(jìn)行訓(xùn)練 , 并采用精確匹配(Exact Match EM)作為主要評(píng)估指標(biāo) 。 該模型在 7 個(gè)主流的公開問答數(shù)據(jù)集上進(jìn)行了測(cè)試 , 涵蓋了從簡(jiǎn)單事實(shí)查詢到復(fù)雜多跳推理(如 HotpotQA)的各種任務(wù) 。
此外 , Reseek 還在自建的 FictionalHot 數(shù)據(jù)集上進(jìn)行了測(cè)試 。 該數(shù)據(jù)集通過(guò)虛構(gòu)內(nèi)容 , 徹底杜絕了 “數(shù)據(jù)污染” 問題 , 能夠更公平地評(píng)估模型的真實(shí)推理能力 。
主要結(jié)果
實(shí)驗(yàn)結(jié)果表明 , ReSeek 在 3B 和 7B 參數(shù)規(guī)模上均達(dá)到了業(yè)界領(lǐng)先的平均性能 。 該模型在 HotpotQA 和 Bamboogle 等需要復(fù)雜多跳推理的基準(zhǔn)上優(yōu)勢(shì)尤為突出 , 這證明了其自我糾錯(cuò)范式在處理復(fù)雜問題上的高效性 。
在 FictionalHot 基準(zhǔn)上的測(cè)試揭示了一個(gè)關(guān)鍵現(xiàn)象:模型規(guī)模(7B vs. 3B)對(duì)性能的影響顯著減小 。 這表明 FictionalHot 成功地消除了模型因規(guī)模增大而產(chǎn)生的記憶優(yōu)勢(shì) , 從而能夠更準(zhǔn)確地衡量其程序化推理能力 , 凸顯了該基準(zhǔn)的評(píng)估價(jià)值 。

交互輪次越多 , 模型效果越好?
為了分離行動(dòng)預(yù)算(action budget)的影響并檢驗(yàn)?zāi)P偷牡阶晕壹m錯(cuò)能力 , 團(tuán)隊(duì)對(duì)最大交互輪數(shù)(turns)進(jìn)行了消融實(shí)驗(yàn) 。 此處的「交互輪數(shù)」定義為模型為單個(gè)查詢可執(zhí)行的最大動(dòng)作次數(shù) 。 該設(shè)置旨在驗(yàn)證額外的動(dòng)作步驟能否幫助模型復(fù)核證據(jù)、修正假設(shè) , 或者其性能是否在一次「搜索 - 回答」的最小循環(huán)后即已飽和 。
如下圖 , 基線模型(baselines)的性能從一輪增至兩輪時(shí)有顯著提升 , 但在三輪和四輪時(shí)幾乎停滯 , 這與其典型的兩步工作流(搜索后回答)相符 。
相比之下 , ReSeek 的性能從一輪到四輪單調(diào)遞增 , 展現(xiàn)了更強(qiáng)的自我糾錯(cuò)能力:當(dāng)交互輪數(shù)更充裕時(shí) , 它會(huì)在不確定時(shí)重新查詢證據(jù)、優(yōu)化規(guī)劃并修正答案 。 平均性能也印證了這一趨勢(shì) , ReSeek 取得了最高的平均分 , 證明該方法能將更多的交互預(yù)算轉(zhuǎn)化為真實(shí)的性能增益 , 而非冗余操作 。

JUDGE 機(jī)制到底有沒有用?
為了更深入地理解判斷器(Judge)機(jī)制在具體案例中的作用 , 而不僅僅是看最終的宏觀分?jǐn)?shù) , 團(tuán)隊(duì)對(duì)其行為進(jìn)行了細(xì)致的逐例分析 。 根據(jù)判斷器干預(yù)所產(chǎn)生的實(shí)際效果 , 將其分為三類(見下圖):
積極影響 (藍(lán)色): 這類情況代表判斷器的干預(yù)帶來(lái)了明確的好處 。 例如:(1) 當(dāng)模型狀態(tài)能夠?qū)蛘_答案時(shí) , 判斷器正確地給出了「是」的信號(hào);(2) 當(dāng)檢索到的信息不包含答案時(shí) , 判斷器正確地給出「否」的信號(hào) , 成功阻止了模型被錯(cuò)誤信息干擾 。 負(fù)面影響 (紅色): 這類情況代表了判斷器的干預(yù)起到了反作用 。 具體來(lái)說(shuō) , 就是判斷器發(fā)出了「是」的信號(hào)(認(rèn)為當(dāng)前信息足以回答問題) , 但模型最終還是給出了錯(cuò)誤答案 。 中性影響 (綠色): 其余所有情況歸為此類 , 表示判斷器的作用不明確或?yàn)橹行?。分析結(jié)果非常清晰:在全部的測(cè)試上 , 「積極影響」 的比例都非常高 , 穩(wěn)定在 40-50% 之間 。 相比之下 , 「負(fù)面影響」的比例最低 , 通常不到 25% 。 正面與負(fù)面影響之間的這種顯著差距 , 充分證明了該設(shè)計(jì)的有效性 。 這一質(zhì)性證據(jù)表明 , 判斷器是整個(gè)框架中一個(gè)可靠且高效的關(guān)鍵組件 。

展望
ReSeek 框架的核心價(jià)值在于為復(fù)雜的業(yè)務(wù)場(chǎng)景提供高可靠性的決策支持 。 在需要實(shí)時(shí)數(shù)據(jù)或熱點(diǎn)理解等領(lǐng)域 , 簡(jiǎn)單的「檢索 - 生成」已無(wú)法滿足需求 。 這些任務(wù)不僅要求信息實(shí)時(shí) , 更要求推理過(guò)程的嚴(yán)謹(jǐn)無(wú)誤 。 ReSeek 的自我糾錯(cuò)機(jī)制 , 正是為了解決這一痛點(diǎn) , 通過(guò)賦予 Agent「反思」和「修正」的能力 , 顯著降低因單點(diǎn)錯(cuò)誤導(dǎo)致全盤失敗的風(fēng)險(xiǎn) , 提升復(fù)雜任務(wù)的成功率 。
當(dāng)然 , 通往通用智能 Agent 的道路充滿挑戰(zhàn) 。 當(dāng)前的訓(xùn)練數(shù)據(jù)還不充分 , 距離實(shí)際落地還有一定距離 , 還面臨一些有待解決問題和算法挑戰(zhàn) ,相信在未來(lái) , Search Agent 能夠作為一種基本的 Agent 范式 , 服務(wù)于每一位用戶 。

    推薦閱讀