通義實驗室大火的 WebAgent 續作:全開源模型方案超過GPT4.1

通義實驗室大火的 WebAgent 續作:全開源模型方案超過GPT4.1

文章圖片

通義實驗室大火的 WebAgent 續作:全開源模型方案超過GPT4.1

文章圖片

通義實驗室大火的 WebAgent 續作:全開源模型方案超過GPT4.1

文章圖片

通義實驗室大火的 WebAgent 續作:全開源模型方案超過GPT4.1

文章圖片



WebAgent 續作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中 , 作者們首次提出了對 information-seeking(IS)任務的形式化建模 并基于該建模設計了 IS 任務訓練數據合成方法 , 并用全開源模型方案取得了 GAIA 評測最高 60.1 分的 SOTA 表現 。
WebShaper 補足了做 GAIA、Browsecomp 上缺少高質量訓練數據的問題 , 通義實驗室開源了高質量 QA 數據!
WebShaper 體現了通義實驗室對 IS 任務的認知從前期的啟發式理解到形式化定義的深化 。

GitHub 鏈接:https://github.com/Alibaba-NLP/WebAgent huggingface 鏈接:https://huggingface.co/datasets/Alibaba-NLP/WebShaper model scope 鏈接:https://modelscope.cn/datasets/iic/WebShaper
圖表 1:WebShaper 在 GAIA 上取得開源方案 SOTA 。
WebShaper —— 合成數據范式的轉變
在大模型時代 , 「信息檢索(Information Seeking ,IS)」早已不是簡單的 「搜索 + 回答」 那么簡單 , 而是 AI 智能體(Agent)能力的重要基石 。 無論是 OpenAI 的 Deep Research、Google 的 Gemini , 還是國內的 Doubao、Kimi , 它們都把 「能不能上網找信息」 當作核心競爭力 。
系統性地構造高質量的信息檢索訓練數據成為激發智能體信息檢索能力的關鍵 , 同時也是瓶頸 。 當前主流方法依賴 「信息驅動」 的合成范式 —— 先通過網絡檢索構建知識圖譜 , 再由大模型生成問答對(如 WebDancer、WebWalker 等方案) 。 這種模式存在兩大缺陷:知識結構與推理邏輯的不一致性 , 以及預檢索內容的局限導致的任務類型、激發能力和知識覆蓋有限 。

圖表 2:WebShaper 從 「信息驅動」到 「形式化驅動」 的范式轉變 。
WebShaper 系統開創性提出 「形式化驅動」 新范式 , 通過數學建模 IS 任務 , 并基于該形式化 , 檢索信息 , 合成訓練數據 。 形式化驅動的優點包括:
1. 全域任務覆蓋 :基于形式化框架的系統探索 , 突破預檢索數據邊界 , 實現覆蓋更廣任務、能力、知識的數據生成 。
2. 精準結構控制 :通過形式化建模 , 可精確調控推理復雜度與邏輯結構 。
3. 結構語義對齊 :任務形式化使信息結構和推理結構一致 , 減少數據合成中產生的錯誤 。
Information Seeking 形式化建模

圖表 3: 形式化建模
WebShaper 首先提出基于集合論的 IS 任務形式化模型 。
該模型包含核心概念「知識投影(Knowledge Projection)」 , 他是一個包含實體的集合:
每個 IS 任務都由 KP 的 R - 并集(R-Union)、交集(Intersection)、遞歸操作構成 , 能夠精準控制推理路徑和任務復雜度; 每個 IS 任務旨在確定一個復雜的由 KP 組合而成的目標集合 T 中包含的實體 。該形式化建模讓 WebShaper 不再依賴自然語言理解的歧義 , 而是可控、可解釋、可擴展的數據合成方案 。
智能體式擴展合成:讓 Agent 自己 「寫題」
為了與形式化建模保持一致 , WebShaper 整個流程開始于預先構建且形式化的基礎種子任務 , 然后在形式化的驅動下 , 將種子問題多步擴展為最終的合成數據 。 此過程采用專用的代理擴展器 (Expander) 模塊 , 旨在通過關鍵過程 (KP) 表征來解釋任務需求 。 在每個擴展階段 , 系統都會實現逐層擴展機制 , 以最小化冗余 , 同時通過控制復雜度進程來防止推理捷徑 。
種子任務構建
為了構建種子任務 , 作者下載了全部 WikiPedia , 并在詞條中隨機游走檢索信息 , 合成基礎的種子 IS 任務 。
KP 表示
IS 任務形式化模型是復雜度的 , 其中包含大量的交、R - 并和遞歸操作 。 為了在 Expander 中表示和使用該模型 , 作者提出了一種 KP 表示 。 其中通過引入 「變量」 和 「常量」 , 以及 R - 并的可交換性質 , 表示了 IS 形式化模型 。
如 , 將如下的問題:
「Which player of a team in the 2004-05 season who was born in 90s? This team is founded in 1966 and is an East German football team.」
表示為:

圖表 4 :形式化表示 。
逐層擴展結構
數據擴展的策略是數據合成的關鍵 。 之前的方法在我們的形式化模型中將得到下圖中的 Random Structure 和 Sequential Structure:

圖表 5 :擴展策略對比 。
這樣的結構存在兩個問題:
冗余性: 如上圖中的 Random Structure 所示 , 存在一些已知常量與其他已知常量相聯系 。 在這種情況下 , 諸如 「柏林迪納摩是一家位于柏林的足球俱樂部」這樣的句子會存在于問題中 。 然而 , 這并沒有增加任務解決的推理鏈 。 推理捷徑: 如上圖中的 Sequential Structure 所示 , 存在一個將常量直接連接到目標的推理鏈條 。 如果發生這種情況 , 模型可能會通過僅推理較近的常量而忽略較深的序列來猜測答案 。為此 , 作者提出如上圖所示的逐層結構 , 每次擴展都選擇葉結點常量進行擴展 , 有效地解決了上述的兩個問題 。
擴展智能體
具體擴展是由 Expander 智能體負責執行 , 他接受當前問題的形式化表示:
根據圖結構層次遍歷找到可擴展常量節點; 調用搜索、網頁摘要、驗證等工具; 自動生成形式化任務、并進行答案驗證和復雜度過濾 。這一步 , 使得我們不僅能構建覆蓋度廣的任務 , 更能確保任務正確性和推理鏈條的嚴謹性 , 大幅減少錯誤傳播 。
Agent 訓練
基于形式化生成的高質量任務和完整的行為軌跡 , 作者使用監督微調(SFT)+ GRPO 強化學習策略來訓練 Agent 。 WebShaper 最終得到 5k 的訓練軌跡 。
訓練后 , 模型在 GAIA 基準任務中獲得:
60.1 分 , 超越所有開源方案 閉源模型 GPT4.1 只有 40.7 分、Claude Sonnet4 58.2 分、O4 mini 66.99我們在全使用開源模型方案下拉近了用最強閉源模型 o4 mini 的差距 , 大幅領先第二名的開源方案 。

圖表 6 :與最新基線方法的對比 。
進一步分析
論文中 , 作者還進一步分析了數據和訓練模型 , 發現:
1. WebShaper 數據領域覆蓋充分 。
2. 在 WebShaper 數據上 , 通過 RL 訓練能大幅激發模型的 IS 能力 。
3. 消融實驗驗證了形式化建模和逐層擴展策略的有效性 。
4. 求解 WebShaper 任務 , 相比于基線數據要求更多的智能體 action 。
為什么這件事重要?
任務形式化 = WebShaper 是基于形式化任務合成數據的開端 。 該思想可以擴展于相比 IS 更為復雜的任務 。 數據質量 = Agent 能力上限 。 好的智能體 , 先要有好的訓練任務 。 Agentic 數據合成 = 智能體數據構建需要結合推理和信息檢索 , 使用 agent 合成數據可以大幅減少中間過程開銷和誤差傳遞 。 開源共享 = 社區生態繁榮 。 我們相信 , 用最開放的方式推動最前沿的研究 , 是 AI 發展的正路 。用開源數據 + 模型做到 GAIA 60 分 , 你也可以 。
【通義實驗室大火的 WebAgent 續作:全開源模型方案超過GPT4.1】現在就來試試:https://github.com/Alibaba-NLP/WebAgent

    推薦閱讀