阿里開源智能體WebSailor,又刷新了多項紀錄

阿里開源智能體WebSailor,又刷新了多項紀錄

文章圖片

阿里開源智能體WebSailor,又刷新了多項紀錄

文章圖片


智東西AI前瞻(公眾號:zhidxcomAI)
作者 | 江宇
編輯 | 漠影
智東西AI前瞻7月8日報道 , 昨日 , 阿里巴巴通義實驗室正式開源其最新網絡智能體WebSailor , 該智能體在多個高難度任務評測中刷新了開源系統的最好成績 , 成為首個在BrowseComp等基準上逼近閉源系統能力的開源方案 。
WebSailor可在開放網頁環境中自主跳轉頁面、查找信息、整合多源線索并完成推理 , 適用于處理路徑不明確、問題模糊、需多步判斷的復雜檢索任務 。
7月3日 , WebSailor技術報告在Hugging Face Papers當日熱度榜中排名第一 , 成為當天關注度最高的AI論文之一 。
該項目的模型代碼、訓練方法與評測數據集也已同步在GitHub開源 。
GitHub地址:https://github.com/Alibaba-NLP/WebAgent

一、評測表現:首次在BrowseComp任務中追近閉源模型WebSailor-72B版本在三大公開評測集上表現突出:
1、BrowseComp-en:12.0%
2、BrowseComp-zh:30.1%
3、GAIA(信息檢索子集):55.4%
其中 , BrowseComp是由OpenAI發布的網頁智能體評測集 , 覆蓋1266個難度極高的檢索任務 , 考察模型在開放網頁上的搜索、篩選、整合和推理能力 。
在BrowseComp等評測中 , WebSailor在開源智能體中實現斷層領先 , 超過DeepSeek R1等開源方案 , 并首次在多個指標上逼近Grok-3、Doubao-Search等閉源方案 。
值得注意的是 , 盡管訓練聚焦高難任務 , WebSailor在面向初級問答的SimpleQA子集上也展現出泛化能力 。
在該任務中 , WebSailor-72B取得93.5%的準確率 , 超過包括WebDancer、WebThinker、DeepSeek等多種方案 。
WebSailor在多個維度評測中均位列開源智能體第一 , 進一步縮小了與OpenAI DeepResearch等閉源系統的差距 。

二、打造高不確定性任務集 , 提升Agent復雜推理能力WebSailor的核心突破在于其完整的后訓練(post-training)方案 , 貫穿數據生成、冷啟動調優、強化學習三大階段:
1、高不確定性任務合成
通義團隊構建了名為SailorFog-QA的問答數據集 , 旨在模擬高不確定性、模糊路徑的信息檢索任務 , 采用以下方式生成問題樣本:
通過“隨機游走”模擬網頁跳轉行為 , 在真實網頁中構建復雜知識圖譜; 利用“圖結構采樣 + 信息模糊化”處理 , 制造多跳、非線性、起點不明的問題 , 提升任務不確定性 。2、冷啟動微調(RFT)
該智能體基于Qwen-2.5(3B、7B、32B、72B)系列模型進行初始化 , 并通過對專家路徑的壓縮重構 , 生成清晰的中間推理步驟 , 從而增強其在復雜任務路徑中的可控性與穩定性 。
3、高效強化學習算法:DUPO
WebSailor引入強化學習新算法Duplicating Sampling Policy Optimization(DUPO) , 采用雙階段動態采樣策略:
RL前期:剔除過于簡單的問題 , 集中訓練高難度軌跡; RL訓練中:重復采樣困難軌跡結果 , 并加入當前批次以高效迭代 。該策略在提升效果的同時 , 將復雜Agent的強化學習訓練速度提升2–3倍 。

三、產品線布局:從基準構建 , 到原生瀏覽器智能體WebSailor是通義實驗室“Web智能體”系列的第三項重要發布:
WebWalker(2025年1月):主攻網頁任務評測基準構建 , 提升評測標準化與復現性; WebDancer(2025年5月):關注自主檢索Agent策略學習 , 強化信息搜集與自決能力; WebSailor(2025年7月):整合任務構建、調優與強化學習方法 , 首次在開源系統中實現對閉源系統的能力追近 。通義團隊稱 , 后續將繼續擴展該系列 , 構建“基于瀏覽器的原生智能體框架” , 適配更多開放式、跨模態的復雜推理場景 。

結語:朝“開源版DeepResearch”邁進一步從大規模任務合成到高效強化學習 , 從Benchmarks構建到模型開源 , WebSailor正逐步進化 。
雖然距離OpenAI等閉源系統仍有差距 , 但其在復雜任務上的大幅進展 , 正在為“開源Agent可用化”提供新的可能性 。
【阿里開源智能體WebSailor,又刷新了多項紀錄】如果說DeepResearch代表了閉源網絡Agent的能力上限 , 那么WebSailor的誕生 , 或許意味著開源世界正開始接近那道分水嶺 。

    推薦閱讀