騰訊AI Lab開源可復現的深度研究智能體，最大限度降低外部依賴_騰訊|Python|人工智能

文章圖片

文章圖片

文章圖片

文章圖片

騰訊AI Lab 投稿
量子位 | 公眾號 QbitAI
深度研究智能體（Deep Research Agents）憑借大語言模型（LLM）和視覺-語言模型（VLM）的強大能力，正在重塑知識發現與問題解決的范式。
然而，現有開源智能體框架多依賴付費工具，限制了可復現性和普適性。
騰訊AI Lab全新推出的Cognitive Kernel-Pro ，一款全開源、多模塊、層次化的智能體框架，為深度研究智能體的開發與訓練提供了突破性解決方案。

在GAIA基準全集上， Cognitive Kernel-Pro超越開源免費框架SmolAgents ，性能逼近依賴付費工具的智能體，展現出卓越的綜合能力。在GAIA-text上，訓練的8B模型超越WebDancer和WebSailor-7B 。
相關論文排上當日HuggingFace熱榜第一。

此外，騰訊AI Lab公開了Agent Foundation Model的訓練配方，為社區提供可復現的訓練路徑。
相關技術報告及代碼已開源于GitHub ，詳細鏈接可見文末。
全開源智能體框架
Cognitive Kernel-Pro以Python代碼為動作空間，充分發揮現代LLM的推理和代碼生成能力。
其核心設計包括以下四點。
1、模塊化架構：框架采用兩層多模塊設計，包含主智能體和多個子智能體（如網頁導航智能體、文件處理智能體）。主智能體負責任務分解和信息整合，子智能體專注于特定任務（如網頁瀏覽、文件操作），確保模塊獨立性和擴展性。
2、狀態管理與規劃：通過“進度狀態”（Progress State）機制，智能體能夠記錄已完成步驟、待辦任務、歷史經驗和關鍵信息。這種結構化狀態管理顯著提升了復雜任務的處理效率。
3、標準化任務接口：主智能體與子智能體通過簡潔的文本接口通信，子智能體以Python函數形式定義，輸入任務字符串，輸出格式化結果和日志，便于協作與調試。
4、測試時優化：框架引入反思機制（Reflection）和投票機制（Voting），通過評估和優化動作軌跡，提升任務完成質量。反思機制允許智能體審查和修正先前動作，投票機制則通過多輪軌跡比較選擇最優結果，顯著增強了網頁瀏覽等高隨機性任務的穩定性。

上表顯示了Agent框架工具的使用和能力情況。
比較專有工具時， Google Search API（可以輕松切換到 DuckDuckGo 等免費 API）被排除在外，它是搜索相關任務的必備功能。
注：WebDancer 和 WebSailor 主要關注Web Agent ，支持 PDF 獲取和簡單處理，但缺乏通用文件Agent功能。
許多現有智能體框架依賴付費工具，增加了使用成本并限制了廣泛應用。而Cognitive Kernel-Pro框架盡可能使用免費、開源工具，使用LLM的python代碼生成能力和理解能力對智能體任務進行處理。
創新訓練方法
Cognitive Kernel-Pro不僅提供了強大的框架，還設計了全面的訓練流程，覆蓋網頁導航、文件處理、代碼生成和推理等多個領域。
關鍵創新包括：
高質量Web Agent數據構建通過構造可驗證的查詢-答案對，結合中間過程提示和基于提示的拒絕采樣，顯著提升訓練數據的質量和相關性. Persona Hub數據增強利用Persona Hub生成多樣化的合成查詢，結合跨系統驗證，增強訓練數據的多樣性和魯棒性。推理數據優化對現有數據集（如NumiaMath、LogicCot、TACO）進行精細化處理，適配智能體任務格式，確保訓練數據與實際應用場景一致。軌跡采樣以GPT-4.1為骨干模型生成智能體軌跡，并通過相似度匹配進行拒絕采樣，最大化訓練數據的有效性。性能優勢
Cognitive Kernel-Pro在網頁信息檢索、文件處理和復雜推理等任務中表現出色，尤其在GAIA基準上超越SmolAgents ，接近依賴付費工具的智能體框架。
相較于依賴Jina Reader、FireCrawl等付費工具的現有開源框架， Cognitive Kernel-Pro強調LLM和VLM的內在能力，最大限度降低外部依賴，實現真正的全開源。
上圖的技術報告中對比了多個AI智能體框架，顯示Cognitive Kernel-Pro在功能全面性和開源程度上具有顯著優勢。框架支持靈活切換免費API（如DuckDuckGo），進一步提升了可訪問性。

上表展示了Cognitive Kernel-Pro與其他開源 Agent基礎模型的性能對比。
Cognitive Kernel-Pro 在 GAIA-text基準測試中取得了優異的成績，超越了WebDancer和WebSailor類似大小模型，體現了框架、模型訓練方法的優越性。
首先， Cognitive Kernel-Pro是一個通用Agent框架，有更好的文件Agent、Code Agent的處理能力，在框架上比整體上是Web Agent的WebThinker、WebDancer、WebSailor要能處理更復雜的情況。
其次，在訓練對應的開源模型CK-Pro-8B時，更通用、豐富的Agent數據被包含進訓練集，共同提升了Agent基座模型的能力。

上表展示了測試Cognitive Kernel-Pro反思功能的消融實驗。
更強的模型，例如GPT-4.1 ，可以提供更好的反思信號，但開源模型例如Qwen-3-32B已經能提供相當GPT-4.1的反思效果。
Cognitive Kernel-Pro的研究團隊表示，未來工作將關注在將反思能力蒸餾到同一個Agent基座模型中。
GitHub：https://github.com/Tencent/CognitiveKernel-ProArxiv：https://arxiv.org/pdf/2508.00414
— 完 —

量子位 QbitAI · 頭條號

【騰訊AI Lab開源可復現的深度研究智能體，最大限度降低外部依賴】關注我們，第一時間獲知前沿科技動態簽約

騰訊AI Lab開源可復現的深度研究智能體，最大限度降低外部依賴

推薦閱讀

鐵鍋邊上的黑垢怎么去鐵鍋邊上的黑垢怎樣去除

土耳其比中國富裕嗎土耳其是不是比中國富裕

龍舟簡筆畫畫法龍舟簡筆畫步驟

空調缺少制冷劑的表現

MOTOT720i的游戲和鈴聲

白茶對胃好不好

PUA男是什么意思？

賣水果用什么燈

養號期間可以發作品嗎

西瓜汁冰沙做法圖解冰爽消暑的夏日飲品

一歲孩子的輔食食譜及做法

細胞工程，為什么基因工程中當受體細胞是植物細胞時一般用體

縮水的牛仔褲怎么拉回去

通信地址是什么意思

2017中國縣城房價走勢,小縣城房價6千左右

瘋狂聯盟戰爭之王怎么解鎖,戰錘3》恐虐戰役機制介紹