阿里開源「深度研究」王炸Agent,登頂開源Agent模型榜首

阿里開源「深度研究」王炸Agent,登頂開源Agent模型榜首

文章圖片

阿里開源「深度研究」王炸Agent,登頂開源Agent模型榜首

文章圖片


頭圖由AI生成
智東西
作者 | 王涵
編輯 | 漠影
智東西9月17日報道 , 今天凌晨 , 阿里巴巴開源了其首個深度研究Agent模型:通義DeepResearch 。
在Humanity’s Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等權威Agent評測集中 , 通義DeepResearch模型憑借3B激活參數 , 性能超越基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗艦模型的ReAct Agent(推理-行動智能體) 。
基準測試成績排名
基準測試分數
目前 , 通義DeepResearch的模型、框架和方案已在Github、Hugging Face和魔搭社區全面開源 , 開發者和用戶可自行下載模型與代碼 。
下載地址:
Github:
https://github.com/Alibaba-NLP/DeepResearch
Hugging Face:
https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
魔搭社區:
https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
深度研究作為近一年的AI研究熱點 , 吸引了谷歌、OpenAI、Anthropic等眾多主流企業投入研發 。
深度研究研發的現有方法大多采用“單窗口、線性累加”的信息處理模式 , 在處理長周期任務時 , Agent易遭遇“認知空間窒息”與“不可逆的噪聲污染” , 導致推理能力降低 , 難以完成復雜研究任務 。
據介紹 , 為解決這些問題 , 阿里通義團隊構建了一套合成數據驅動的完整訓練鏈路 , 覆蓋預訓練與后訓練階段 。
該鏈路以Qwen3-30B-A3B模型為基礎進行優化 , 設計了RL算法驗證與真實訓練模塊 , 涵蓋真實與虛擬環境 , 并借助異步強化學習算法及自動化數據策展流程 , 有效提升了模型的迭代速度與泛化能力 。
在推理階段 , 通義團隊還設計了ReAct和基于自研IterResearch的Heavy兩種模式 。 ReAct用于精準評估模型的基礎內在能力 , Heavy則通過test-time scaling策略 , 充分挖掘模型的性能上限 , 確保在長任務中也能實現高質量推理 。

結語:阿里進一步補全開源布局今年以來 , 阿里已陸續開源WebWalker、WebDancer和WebSailor等多款檢索和推理智能體 , 且均取得開源SOTA成績 。 通義DeepResearch的開源 , 進一步豐富了阿里在AI智能體領域的開源布局 。
【阿里開源「深度研究」王炸Agent,登頂開源Agent模型榜首】通義DeepResearch的開源為深度研究Agent賽道提供了“輕量化高性能”的新選擇 , 也為全球開發者攻克長周期復雜研究任務提供了關鍵工具支撐 。

    推薦閱讀