官方揭秘ChatGPT Agent背后原理!通過強化學習讓模型自主探索工具

官方揭秘ChatGPT Agent背后原理!通過強化學習讓模型自主探索工具

文章圖片

官方揭秘ChatGPT Agent背后原理!通過強化學習讓模型自主探索工具

文章圖片


不圓 發自 凹非寺
量子位 | 公眾號 QbitAI
ChatGPT Agent的技術內幕 , 被官方披露了 。
就在OpenAI官方推出其最強智能體后 , 外界褒與貶的熱議都沒停過……但不論如何 , 都被視為智能體方向上標志性的一步 , 是OpenAI一個全新的開端 。
關于更進一步的Agent Mode的工作原理 , OpenAI開發團隊在和投資方紅杉資本的圓桌談話中做了詳細解析 , 還回答了幾個值得關注的問題 。
這是OpenAI官方首次詳細解析ChatGPT Agent功能背后的原理 。

ChatGPT Agent由以下四個部分組成:
Deep Research(基于文本的研究智能體) Operator(基于GUI/操作的計算機智能體) 其他新工具(終端、圖像生成、API調用等) 通過共享狀態進行整合然而 , 智能體也不是想要整合就能整合的 , 在這場談話中 , OpenAI透露了他們的訓練方法 , 以及他們為ChatGPT Agent做出的組織調整 。
量子位提取并總結了一些關鍵信息 , 讓我們一起來看 。
歪打正著的起源在正式走近ChatGPT Agent之前 , 讓我們介紹一下這次談話的幾位主角 , 他們分別是OpenAI團隊核心成員Isa Fulford、Casey Chu和孫之清 。
Isa Fulford , 斯坦福大學計算機科學碩士(人機交互方向) , 2022年11月加入OpenAI , 現主導ChatGPT Agent的交互范式設計 。 Casey Chu , OpenAI資深員工 , 斯坦福數學碩士 , 領導GPT-4視覺輸入初始原型開發 , 現為Operator/ChatGPT Agent技術負責人 。 孫之清 , 95后北大校友 , DeepResearch負責人 , 去年6月博士還沒畢業就加入了OpenAI , 在后訓練團隊擔任研究科學家 , 已參與OpenAI的諸多核心項目 。在這次的談話中 , 他們介紹了ChatGPT Agent的起源:
我們團隊分別開發了Operator和Deep Research , 在分析用戶請求時發現 , Deep Research的用戶非常希望模型能夠訪問需要付費訂閱的內容或有門檻的資源 , 而Operator恰好具備這種能力 。 通過分析Operator的用戶提示發現 , 很多用戶實際上試圖用它執行Deep Research類型的任務 。 除了整合兩個核心工具 , 我們還添加了終端、圖像生成等多項功能 。
原本兩個功能不同的智能體 , 就這樣在用戶的“錯用”下合二為一 , 變成了一個更通用的ChatGPT Agent 。
1+12 , 怎么做到的?簡單地說 , ChatGPT Agent是Deep Research和Operator合作的成果 。
Deep Research擅長文本閱讀與綜合報告 , 而Operator擅長視覺交互(如點擊、輸入、滾動);在此基礎上 , ChatGPT Agent補足了Deep Research不擅長多輪對話的短板 , 能持續協作;又能在保持視覺交互的同時 , 執行研究類任務 。
但它們是如何整合到一起的呢?
在這次圓桌談話中 , ChatGPT Agent團隊首次披露了他們的訓練方法:將所有工具集成至虛擬機 , 通過強化學習讓模型自主探索最佳工具組合 。
具體來說 , 在訓練過程中 , 模型被賦予所有可用的工具 , 例如文本瀏覽器、虛擬瀏覽器、終端工具和圖像生成工具 , 它們都運行在同一個虛擬機(VM)環境中 , 并且所有工具都共享狀態 , 類似于一臺電腦上不同應用程序訪問相同文件系統的方式 。
這種設計使ChatGPT Agent能高效處理互聯網、文件系統和代碼等交互任務 。 研究團隊沒有預先指定工具使用規則 , 而是讓模型通過強化學習自行發現最佳策略 。
研究團隊會創建一系列難度較高的任務 , 而模型需要調用已有的工具來完成任務 。 通過獎勵機制 , 如果模型能夠高效且正確地完成任務 , 它就會得到獎勵 , 從而學會如何更好地執行任務 。
訓練后的模型能夠通過實驗自主學習如何高效、正確地完成任務 , 并流暢地在各種工具之間切換 , 而無需被明確告知何時使用何種工具 。
例如 , 如果任務要求研究餐廳并預訂 , 模型可能會先使用文本瀏覽器進行研究 , 然后切換到圖形用戶界面(GUI)瀏覽器查看食物圖片或預訂可用性(這通常需要實際的GUI瀏覽器來處理JavaScript元素) 。
【官方揭秘ChatGPT Agent背后原理!通過強化學習讓模型自主探索工具】ChatGPT Agent團隊認為這種訓練方法潛力巨大 。 ChatGPT Agent目前僅為最簡可行產品(Minimum Viable Product , MVP) , 但已經展現出強大的能力 。 同樣的強化學習算法也適用于Deep Research、Operator , 研究團隊在短時間內就取得了這些成果 , 未來還有很大提升空間 。
在交互性方面 , ChatGPT Agent團隊主要關注端到端性能 , 從用戶提示到任務完成 。
ChatGPT Agent在與用戶交互方面表現良好 , 部分原因是它在訓練中納入了多樣化的任務軌跡 , 用戶可隨時干預 , 提供澄清或更正 , 它也能根據反饋調整行為 。
ChatGPT Agent的開發可追溯到2017年的World of Bits項目 , 最大的變化是訓練規模的提升 , 無論是預訓練還是強化學習 , 計算量可能增加了數十萬倍 , 使ChatGPT Agent的短時間開發得以實現 。
小團隊能成大事OpenAI為了打造ChatGPT Agent , 對其下的組織架構做出了調整 。
比方說參與這次圓桌談話的Isa Fulford和孫之清 , 是Deep Research團隊的核心成員 , 而Casey Chu是Operator的技術負責人 。
簡單地講 , ChatGPT Agent團隊由Deep Research和Operator的研究與應用團隊合并而成 。

這個團隊的總人數并不多 , Deep Research團隊最初只有3-4人 , Operator團隊約6-8人 , 合并在一起 , 加上產品和設計人員 , 也就20到35人 , 但他們花幾個月就完成了這個項目 。
他們在談話中表示 , ChatGPT Agent團隊對研究與應用的界限并不嚴格 , 應用工程師參與模型訓練 , 研究人員也參與模型部署 。
研究與應用團隊緊密合作 , 從定義產品功能到模型訓練均以用戶場景為導向 。
這種跨職能合作使項目充滿活力 , 團隊氛圍非常好 。
雖然ChatGPT Agent尚未完全實現所有目標 , 但這種組織框架使他們能夠快速迭代 。
安全機制與未來發展談話還提到了ChatGPT Agent遇到的挑戰 , 以及他們對未來的展望 。
在訓練過程中 , ChatGPT Agent遇到的最大的挑戰是訓練的穩定性問題 , ChatGPT Agent需同時處理多種新工具 , 且都在同一虛擬機環境中運行 。 這就需要同時運行成千上萬的虛擬機訪問網絡 , 經常遇到網站宕機、API限制或網絡容量不足等問題 。
某些網站可能因流量過載而暫時不可用 , 或者API調用因速率限制而失敗 , 這要求研究團隊在訓練中加入魯棒性機制 , 確保ChatGPT Agent能處理這些異常情況 。
另外 , 由于ChatGPT Agent能夠執行具有外部副作用的操作(例如購買物品) , 研究團隊在安全方面投入了大量精力 , 實施了多層次安全措施 , 包括以下四個方面:
實時監控系統檢測異常行為 , 若發現可疑操作會立即暫停任務 執行敏感操作前強制用戶確認 生物風險專項防護 支持用戶隨時接管操作研究團隊特別關注了生物風險等嚴重問題 , 例如防止ChatGPT Agent被用于創建生物武器 。

對于未來的展望 , ChatGPT Agent團隊在這次談話中表示 , OpenAI傾向于打造一個通用的超級智能體 。
雖然單一智能體模型在擴展性和通用性上更具潛力 , 但研究團隊希望通過持續優化 , 讓ChatGPT Agent能夠無縫處理從簡單查詢到復雜工作流的各種任務 , 減少用戶對多個專用模型的依賴 。
從市場價值的角度來看 , 定制化模型可能更優 , 但從訓練角度看 , 通用智能體能更好地利用技能的可遷移特性 。 研究團隊也在探索如何通過強化學習進一步提高ChatGPT Agent的泛化能力 , 在遇到全新任務時快速適應 , 而無需大量額外訓練數據 。
未來 , ChatGPT Agent可能通過學習用戶反饋 , 動態調整其行為模式 , 進一步提升任務完成的精準度 。
總的來說 , ChatGPT Agent的未來發展方向如下:
增強多輪對話與個性化記憶 開發主動服務能力 探索更自然的交互范式 提升復雜任務(如數據分析)的完成度目前ChatGPT Agent已開放使用 , Plus用戶每月有40次使用額度 。

ChatGPT Agent的研究團隊在采訪中表示 , 他們有意設計了一個開放式的智能體 , 鼓勵用戶探索其潛力 。
參考鏈接:[1
https://x.com/sonyatweetybird/status/1947718831075693055?s=46[2
https://www.youtube.com/watch?v=YNWWu0aZ5pY[3
https://x.com/OpenAI/status/1945904743148323285
— 完 —

量子位 QbitAI · 頭條號

關注我們 , 第一時間獲知前沿科技動態簽約

    推薦閱讀