官方揭秘ChatGPT Agent背后原理！通過強化學習讓模型自主探索工具

2025-07-31 08:51 人工智能瀏覽器 operator ChatGPT openai

文章圖片

文章圖片

不圓發自凹非寺
量子位 | 公眾號 QbitAI
ChatGPT Agent的技術內幕，被官方披露了。
就在OpenAI官方推出其最強智能體后，外界褒與貶的熱議都沒停過……但不論如何，都被視為智能體方向上標志性的一步，是OpenAI一個全新的開端。
關于更進一步的Agent Mode的工作原理， OpenAI開發團隊在和投資方紅杉資本的圓桌談話中做了詳細解析，還回答了幾個值得關注的問題。
這是OpenAI官方首次詳細解析ChatGPT Agent功能背后的原理。

ChatGPT Agent由以下四個部分組成：
Deep Research（基于文本的研究智能體） Operator（基于GUI/操作的計算機智能體）其他新工具（終端、圖像生成、API調用等）通過共享狀態進行整合然而，智能體也不是想要整合就能整合的，在這場談話中， OpenAI透露了他們的訓練方法，以及他們為ChatGPT Agent做出的組織調整。
量子位提取并總結了一些關鍵信息，讓我們一起來看。
歪打正著的起源在正式走近ChatGPT Agent之前，讓我們介紹一下這次談話的幾位主角，他們分別是OpenAI團隊核心成員Isa Fulford、Casey Chu和孫之清。
Isa Fulford ，斯坦福大學計算機科學碩士（人機交互方向）， 2022年11月加入OpenAI ，現主導ChatGPT Agent的交互范式設計。 Casey Chu ， OpenAI資深員工，斯坦福數學碩士，領導GPT-4視覺輸入初始原型開發，現為Operator/ChatGPT Agent技術負責人。孫之清， 95后北大校友， DeepResearch負責人，去年6月博士還沒畢業就加入了OpenAI ，在后訓練團隊擔任研究科學家，已參與OpenAI的諸多核心項目。在這次的談話中，他們介紹了ChatGPT Agent的起源：
我們團隊分別開發了Operator和Deep Research ，在分析用戶請求時發現， Deep Research的用戶非常希望模型能夠訪問需要付費訂閱的內容或有門檻的資源，而Operator恰好具備這種能力。通過分析Operator的用戶提示發現，很多用戶實際上試圖用它執行Deep Research類型的任務。除了整合兩個核心工具，我們還添加了終端、圖像生成等多項功能。
原本兩個功能不同的智能體，就這樣在用戶的“錯用”下合二為一，變成了一個更通用的ChatGPT Agent 。
1+12 ，怎么做到的？簡單地說， ChatGPT Agent是Deep Research和Operator合作的成果。
Deep Research擅長文本閱讀與綜合報告，而Operator擅長視覺交互（如點擊、輸入、滾動）；在此基礎上， ChatGPT Agent補足了Deep Research不擅長多輪對話的短板，能持續協作；又能在保持視覺交互的同時，執行研究類任務。
但它們是如何整合到一起的呢？
在這次圓桌談話中， ChatGPT Agent團隊首次披露了他們的訓練方法：將所有工具集成至虛擬機，通過強化學習讓模型自主探索最佳工具組合。
具體來說，在訓練過程中，模型被賦予所有可用的工具，例如文本瀏覽器、虛擬瀏覽器、終端工具和圖像生成工具，它們都運行在同一個虛擬機（VM）環境中，并且所有工具都共享狀態，類似于一臺電腦上不同應用程序訪問相同文件系統的方式。
這種設計使ChatGPT Agent能高效處理互聯網、文件系統和代碼等交互任務。研究團隊沒有預先指定工具使用規則，而是讓模型通過強化學習自行發現最佳策略。
研究團隊會創建一系列難度較高的任務，而模型需要調用已有的工具來完成任務。通過獎勵機制，如果模型能夠高效且正確地完成任務，它就會得到獎勵，從而學會如何更好地執行任務。
訓練后的模型能夠通過實驗自主學習如何高效、正確地完成任務，并流暢地在各種工具之間切換，而無需被明確告知何時使用何種工具。
例如，如果任務要求研究餐廳并預訂，模型可能會先使用文本瀏覽器進行研究，然后切換到圖形用戶界面（GUI）瀏覽器查看食物圖片或預訂可用性（這通常需要實際的GUI瀏覽器來處理JavaScript元素）。
【官方揭秘ChatGPT Agent背后原理！通過強化學習讓模型自主探索工具】ChatGPT Agent團隊認為這種訓練方法潛力巨大。 ChatGPT Agent目前僅為最簡可行產品（Minimum Viable Product ， MVP），但已經展現出強大的能力。同樣的強化學習算法也適用于Deep Research、Operator ，研究團隊在短時間內就取得了這些成果，未來還有很大提升空間。
在交互性方面， ChatGPT Agent團隊主要關注端到端性能，從用戶提示到任務完成。
ChatGPT Agent在與用戶交互方面表現良好，部分原因是它在訓練中納入了多樣化的任務軌跡，用戶可隨時干預，提供澄清或更正，它也能根據反饋調整行為。
ChatGPT Agent的開發可追溯到2017年的World of Bits項目，最大的變化是訓練規模的提升，無論是預訓練還是強化學習，計算量可能增加了數十萬倍，使ChatGPT Agent的短時間開發得以實現。
小團隊能成大事OpenAI為了打造ChatGPT Agent ，對其下的組織架構做出了調整。
比方說參與這次圓桌談話的Isa Fulford和孫之清，是Deep Research團隊的核心成員，而Casey Chu是Operator的技術負責人。
簡單地講， ChatGPT Agent團隊由Deep Research和Operator的研究與應用團隊合并而成。

這個團隊的總人數并不多， Deep Research團隊最初只有3-4人， Operator團隊約6-8人，合并在一起，加上產品和設計人員，也就20到35人，但他們花幾個月就完成了這個項目。
他們在談話中表示， ChatGPT Agent團隊對研究與應用的界限并不嚴格，應用工程師參與模型訓練，研究人員也參與模型部署。
研究與應用團隊緊密合作，從定義產品功能到模型訓練均以用戶場景為導向。
這種跨職能合作使項目充滿活力，團隊氛圍非常好。
雖然ChatGPT Agent尚未完全實現所有目標，但這種組織框架使他們能夠快速迭代。
安全機制與未來發展談話還提到了ChatGPT Agent遇到的挑戰，以及他們對未來的展望。
在訓練過程中， ChatGPT Agent遇到的最大的挑戰是訓練的穩定性問題， ChatGPT Agent需同時處理多種新工具，且都在同一虛擬機環境中運行。這就需要同時運行成千上萬的虛擬機訪問網絡，經常遇到網站宕機、API限制或網絡容量不足等問題。
某些網站可能因流量過載而暫時不可用，或者API調用因速率限制而失敗，這要求研究團隊在訓練中加入魯棒性機制，確保ChatGPT Agent能處理這些異常情況。
另外，由于ChatGPT Agent能夠執行具有外部副作用的操作（例如購買物品），研究團隊在安全方面投入了大量精力，實施了多層次安全措施，包括以下四個方面：
實時監控系統檢測異常行為，若發現可疑操作會立即暫停任務執行敏感操作前強制用戶確認生物風險專項防護支持用戶隨時接管操作研究團隊特別關注了生物風險等嚴重問題，例如防止ChatGPT Agent被用于創建生物武器。

對于未來的展望， ChatGPT Agent團隊在這次談話中表示， OpenAI傾向于打造一個通用的超級智能體。
雖然單一智能體模型在擴展性和通用性上更具潛力，但研究團隊希望通過持續優化，讓ChatGPT Agent能夠無縫處理從簡單查詢到復雜工作流的各種任務，減少用戶對多個專用模型的依賴。
從市場價值的角度來看，定制化模型可能更優，但從訓練角度看，通用智能體能更好地利用技能的可遷移特性。研究團隊也在探索如何通過強化學習進一步提高ChatGPT Agent的泛化能力，在遇到全新任務時快速適應，而無需大量額外訓練數據。
未來， ChatGPT Agent可能通過學習用戶反饋，動態調整其行為模式，進一步提升任務完成的精準度。
總的來說， ChatGPT Agent的未來發展方向如下：
增強多輪對話與個性化記憶開發主動服務能力探索更自然的交互范式提升復雜任務（如數據分析）的完成度目前ChatGPT Agent已開放使用， Plus用戶每月有40次使用額度。

ChatGPT Agent的研究團隊在采訪中表示，他們有意設計了一個開放式的智能體，鼓勵用戶探索其潛力。
參考鏈接：[1
https://x.com/sonyatweetybird/status/1947718831075693055?s=46[2
https://www.youtube.com/watch?v=YNWWu0aZ5pY[3
https://x.com/OpenAI/status/1945904743148323285
— 完 —

量子位 QbitAI · 頭條號

關注我們，第一時間獲知前沿科技動態簽約

推薦閱讀

上一篇：預算只有兩千元該買什么手機？選一加Ace 5至尊版

下一篇：紅米K90Pro曝光：1英寸大底+7000mAh電池，原地起飛