開源框架教AI在MCP中玩轉工具解決任務,實測效果超越GPT!

開源框架教AI在MCP中玩轉工具解決任務,實測效果超越GPT!

文章圖片

開源框架教AI在MCP中玩轉工具解決任務,實測效果超越GPT!

文章圖片

開源框架教AI在MCP中玩轉工具解決任務,實測效果超越GPT!

文章圖片


henry 發自 凹非寺
量子位 | 公眾號 QbitAI
強化學習+任意一張牌 , 往往就是王炸 。
專注于LLM+RL的科技公司OpenPipe提出全新開源強化學習框架——MCP·RL 。
只需一個MCP Server的地址 , agent就能自動發現工具、生成任務 , 通過強化學習在閉環反饋中摸索出最優調用策略 。
在實測中 , MCP·RL更是在2/3的benchmark上達到或超過SOTA性能 , 效果直接拉滿 。

不套公式 , 在“做中學” , 這就是專屬RL的power!

MCP·RL的做中學想明白MCP·RL怎么個“做中學”法 , 咱們有必要簡單過一下傳統MCP的流程:
舉個例子 , 假如你想讓agent幫自己讀郵件、分類、寫回復 , 那么你就得提前設置好整個工作流:
準備郵件數據、注冊工具、寫prompt規劃執行順序 。
此外 , 你還得設置回退邏輯 , 以防中途崩掉 。
而這只是一個發郵件的例子 , 功能一多 , 配置量指數級上升 。
最關鍵的是——你得知道怎么拆任務、調工具、寫邏輯 。
換句話說 , agent就是在做你給他出的完形填空 。
而你 , 我的朋友 , 要填除了空以外的所有東西 。
MCP·RL的提出就是為了解決這一問題 。
你只需提供MCP Server地址 , 不用配置工具、不用寫prompt、不用人工標注 。
模型就能自己發現工具、自己設計任務、自己實戰訓練 , 邊跑邊學 。

簡單來說 , MCP·RL的訓練流程分四步:
發現工具:自動連接MCP Server , 獲取所有可用工具和參數 。 生成任務:根據工具信息自己“腦補”出一批使用場景 , 作為訓練任務(數據) 。 實戰訓練:通過跑任務直接從經驗中學習 , 搭配RULER評估策略 , 調參優化 。 測試泛化:用新任務檢驗策略泛化性 , 讓agent越用越順手 ??偨Y下來就是:任務場景是什么?AI找;工具怎么用?AI學;流程怎么拆?AI想;效果好不好?AI試 。
一位網友精辟的點出了這一轉變:
我們曾借助MCP讓AI調用工具 , 而現在是AI反過來利用MCP 。

那么 , 它的效果如何呢?
正如我們開頭提到的 , MCP·RL在2/3的基準測試中達到SOTA 。

而在具體的部署層面 , MCP·RL無需標注數據 , 適用于任何Server , 無需定制MCP接口 , 開箱即用 。
One more thingMCP·RL是科技公司OpenPipe基于強化學習的智能體訓練系統(Agent Reinforcement Trainer , ART)的最新項目 。
ART是一個開源強化學習框架 , 其核心思想是讓LLM從經驗中學習 , 從而提高agent的可靠性 , ART可以將GRPO集成到任何Python應用中 。
在此前的實測中 , ART(Agent Reinforcement Trainer)對Qwen 2.5-14B進行強化訓練 , 其在一項電子郵件檢索任務中表現優于o3 , 實現了SOTA(state-of-the-art) 。

參考鏈接:[1
https://x.com/corbtt/status/1953171838382817625[2
https://github.com/OpenPipe/ART?tab=readme-ov-file#-notebooks

— 完 —
量子位 QbitAI · 頭條號簽約
關注我們 , 第一時間獲知前沿科技動態
【開源框架教AI在MCP中玩轉工具解決任務,實測效果超越GPT!】

    推薦閱讀