
文章圖片

文章圖片

文章圖片

文章圖片
騰訊AI Lab 投稿
量子位 | 公眾號 QbitAI
深度研究智能體(Deep Research Agents)憑借大語言模型(LLM)和視覺-語言模型(VLM)的強大能力 , 正在重塑知識發現與問題解決的范式 。
然而 , 現有開源智能體框架多依賴付費工具 , 限制了可復現性和普適性 。
騰訊AI Lab全新推出的Cognitive Kernel-Pro , 一款全開源、多模塊、層次化的智能體框架 , 為深度研究智能體的開發與訓練提供了突破性解決方案 。
在GAIA基準全集上 , Cognitive Kernel-Pro超越開源免費框架SmolAgents , 性能逼近依賴付費工具的智能體 , 展現出卓越的綜合能力 。 在GAIA-text上 , 訓練的8B模型超越WebDancer和WebSailor-7B 。
相關論文排上當日HuggingFace熱榜第一 。
此外 , 騰訊AI Lab公開了Agent Foundation Model的訓練配方 , 為社區提供可復現的訓練路徑 。
相關技術報告及代碼已開源于GitHub , 詳細鏈接可見文末 。
全開源智能體框架
Cognitive Kernel-Pro以Python代碼為動作空間 , 充分發揮現代LLM的推理和代碼生成能力 。
其核心設計包括以下四點 。
1、模塊化架構:框架采用兩層多模塊設計 , 包含主智能體和多個子智能體(如網頁導航智能體、文件處理智能體) 。 主智能體負責任務分解和信息整合 , 子智能體專注于特定任務(如網頁瀏覽、文件操作) , 確保模塊獨立性和擴展性 。
2、狀態管理與規劃:通過“進度狀態”(Progress State)機制 , 智能體能夠記錄已完成步驟、待辦任務、歷史經驗和關鍵信息 。 這種結構化狀態管理顯著提升了復雜任務的處理效率 。
3、標準化任務接口:主智能體與子智能體通過簡潔的文本接口通信 , 子智能體以Python函數形式定義 , 輸入任務字符串 , 輸出格式化結果和日志 , 便于協作與調試 。
4、測試時優化:框架引入反思機制(Reflection)和投票機制(Voting) , 通過評估和優化動作軌跡 , 提升任務完成質量 。 反思機制允許智能體審查和修正先前動作 , 投票機制則通過多輪軌跡比較選擇最優結果 , 顯著增強了網頁瀏覽等高隨機性任務的穩定性 。
上表顯示了Agent框架工具的使用和能力情況 。
比較專有工具時 , Google Search API(可以輕松切換到 DuckDuckGo 等免費 API)被排除在外 , 它是搜索相關任務的必備功能 。
注:WebDancer 和 WebSailor 主要關注Web Agent , 支持 PDF 獲取和簡單處理 , 但缺乏通用文件Agent功能 。
許多現有智能體框架依賴付費工具 , 增加了使用成本并限制了廣泛應用 。 而Cognitive Kernel-Pro框架盡可能使用免費、開源工具 , 使用LLM的python代碼生成能力和理解能力對智能體任務進行處理 。
創新訓練方法
Cognitive Kernel-Pro不僅提供了強大的框架 , 還設計了全面的訓練流程 , 覆蓋網頁導航、文件處理、代碼生成和推理等多個領域 。
關鍵創新包括:
高質量Web Agent數據構建 通過構造可驗證的查詢-答案對 , 結合中間過程提示和基于提示的拒絕采樣 , 顯著提升訓練數據的質量和相關性. Persona Hub數據增強 利用Persona Hub生成多樣化的合成查詢 , 結合跨系統驗證 , 增強訓練數據的多樣性和魯棒性 。 推理數據優化 對現有數據集(如NumiaMath、LogicCot、TACO)進行精細化處理 , 適配智能體任務格式 , 確保訓練數據與實際應用場景一致 。 軌跡采樣 以GPT-4.1為骨干模型生成智能體軌跡 , 并通過相似度匹配進行拒絕采樣 , 最大化訓練數據的有效性 。 性能優勢
Cognitive Kernel-Pro在網頁信息檢索、文件處理和復雜推理等任務中表現出色 , 尤其在GAIA基準上超越SmolAgents , 接近依賴付費工具的智能體框架 。
相較于依賴Jina Reader、FireCrawl等付費工具的現有開源框架 , Cognitive Kernel-Pro強調LLM和VLM的內在能力 , 最大限度降低外部依賴 , 實現真正的全開源 。
上圖的技術報告中對比了多個AI智能體框架 , 顯示Cognitive Kernel-Pro在功能全面性和開源程度上具有顯著優勢 。 框架支持靈活切換免費API(如DuckDuckGo) , 進一步提升了可訪問性 。
上表展示了Cognitive Kernel-Pro與其他開源 Agent基礎模型的性能對比 。
Cognitive Kernel-Pro 在 GAIA-text基準測試中取得了優異的成績 , 超越了WebDancer和WebSailor類似大小模型 , 體現了框架、模型訓練方法的優越性 。
首先 , Cognitive Kernel-Pro是一個通用Agent框架 , 有更好的文件Agent、Code Agent的處理能力 , 在框架上比整體上是Web Agent的WebThinker、WebDancer、WebSailor要能處理更復雜的情況 。
其次 , 在訓練對應的開源模型CK-Pro-8B時 , 更通用、豐富的Agent數據被包含進訓練集 , 共同提升了Agent基座模型的能力 。
上表展示了測試Cognitive Kernel-Pro反思功能的消融實驗 。
更強的模型 , 例如GPT-4.1 , 可以提供更好的反思信號 , 但開源模型例如Qwen-3-32B已經能提供相當GPT-4.1的反思效果 。
Cognitive Kernel-Pro的研究團隊表示 , 未來工作將關注在將反思能力蒸餾到同一個Agent基座模型中 。
GitHub:https://github.com/Tencent/CognitiveKernel-ProArxiv:https://arxiv.org/pdf/2508.00414
— 完 —
量子位 QbitAI · 頭條號
【騰訊AI Lab開源可復現的深度研究智能體,最大限度降低外部依賴】關注我們 , 第一時間獲知前沿科技動態簽約
推薦閱讀
- 騰訊校園招新緊盯AI人才 軟件開發、技術研究需求量較大
- 剛剛,OpenAI發布2款開源模型!手機筆記本也能跑,北大校友扛大旗
- 科研寫作神器,超越Mathpix的科學公式提取工具已開源
- 騰訊一口氣開源4款模型!最小僅0.5B,增強agent能力,手機就能跑
- 手機也能跑大模型,騰訊混元推出多款小尺寸開源模型
- 開源首個3D世界模型,騰訊要用AI重塑娛樂產業,游戲只是前菜
- 剛剛,小米又開源一大模型,22個公開測評SOTA
- AI狂飆,“股王”騰訊歸來
- 智譜發布新一代基座模型GLM-4.5:開源、高效、低價,專為智能體而生
- vivo自研藍河操作系統內核開源!Rust開發新機遇來了
