
文章圖片

文章圖片

文章圖片
【剛剛,OpenAI 發布 ChatGPT 版 Manus!奧特曼:感受 AGI 時刻】
文章圖片

文章圖片

文章圖片

過去大半年 , Agent(智能體)是 AI 行業最常被提及的概念之一 。
幾乎所有廠商都在講 Agent , 概念不缺 , demo 也不少 , 但真正做到產品級落地 , 始終缺一套完整的執行系統——既能理解復雜目標 , 又能調用多種工具串聯任務流程 , 還要隨時支持任務中斷、修改與恢復 , 真正貼合用戶工作流 。
就在剛剛 , OpenAI 正式發布 ChatGPT Agent 功能 。
通過整合 Operator + Deep Research + ChatGPT 本體 , 用戶只需描述任務 , ChatGPT Agent 就能自主判斷所需工具 , 自動訪問網頁、提取信息、運行代碼、生成幻燈片或表格等 , 并可在執行過程中實時展示步驟、接受中斷和修改指令 。
發布會結束后 , OpenAI CEO Sam Altman 在社交媒體上寫道::
觀看 ChatGPT Agent 使用計算機完成復雜任務 , 對我來說是一個真正的「感受 AGI」時刻;看到計算機思考、計劃和執行 , 有種與眾不同的感覺 。
亮點如下:
ChatGPT Agent 將 Operator、Deep Research 與 ChatGPT 本體三合一 , 構建了一個統一智能體系統 。 內置圖形/文本瀏覽器、終端和 API 調用器等工具 , 支持手機端使用 , 任務完成后可自動推送結果; 可連接 Gmail、GitHub 等第三方應用 , 深度嵌入用戶真實工作流; 在多項基準測試中表現領先 , 綜合性能位居行業前列; Pro 用戶每月享有 400 條調用額度 , 其他付費用戶為 40 條 , 并支持按需擴展配額 。
ChatGPT Agent 正式上線 , 能購物 , 能寫 PPT , 你的瀏覽器要被 AI 接管了今天開始 , 你可以在任何對話中 , 通過聊天界面左下角的「工具」下拉菜單 , 選擇「Agent 模式」來啟用這一功能 。
只需描述你想完成的任務 , ChatGPT 能夠智能地瀏覽網站、篩選結果、在需要時安全提示你登錄、運行代碼、執行分析 , 甚至輸出可編輯的幻燈片和電子表格 , 總結任務結果 。
整個執行過程是可視的——操作步驟會實時顯示在屏幕上 , 用戶可以隨時中斷、修改指令 , 甚至手動「接管瀏覽器」繼續操作 , 確保任務始終符合你的目標和需求 。
在今天凌晨的演示中 , OpenAI 展示了 ChatGPT Agent 在真實場景中的應用能力 。
比如 , 為即將出席的婚禮做準備 , 一直是個難題 。 現在只需發出請求 , ChatGPT Agent 迅速搭建虛擬環境 , 自主判斷應調用瀏覽器、文本解析器還是終端 , 并開始依次調取婚禮日期、查詢場地天氣、推薦西裝搭配、篩選酒店 。 在這個過程中 , 模型可以與 OpenAI 研究員進行互動 , 并在適當節點請求確認需求 。
更重要的是 , 用戶可以隨時中斷任務 。
比如當 Agent 在推薦西裝過程中 , OpenAI 研究員臨時插入了「幫我找一雙 9.5 碼黑色正裝鞋」的請求 , 模型立刻暫停當前任務 , 轉而處理新需求 。
同樣地 , 當智能體認為有必要時 , 也會主動向你請求更多信息 , 確保任務始終與你的目標保持一致 。 如果任務超出預期時間或出現卡頓 , 你可以選擇暫停任務、請求進度摘要 , 或直接終止任務并獲取已有的部分結果 。
「這種可打斷、可多輪對話的機制 , 是我們這次訓練模型的重點之一 , 」OpenAI 研究員解釋道 。
這一能力背后 , 是 ChatGPT Agent 對三大系統的統一整合:Operator 提供網頁交互能力 , 支持自動滾動、點擊、填表;Deep Research 擅長信息整合與分析;ChatGPT 本體則負責自然語言理解與智能推理 。
ChatGPT Agent 是通過強化學習在復雜的任務中訓練出來的 , 過去三者各有短板——前者難以深入分析 , 后者無法操作網頁 , 而 Agent 將三者優勢整合為一體 , 并輔以瀏覽器、終端、API 調用器等工具 , 形成一個完整的執行系統 。
用戶不僅可以在桌面端啟動 Agent 模式 , 在手機端也同樣適用 。
任務完成后還將自動推送結果通知 。 在第二個演示任務中 , OpenAI 研究員在 ChatGPT App 上傳了團隊吉祥物 Bernie Doodle 的貼紙圖案 , Agent 自動調用圖像生成 API 設計貼紙樣式 , 通過瀏覽器訪問電商平臺完成比價、樣式選擇、購物車添加 , 最終整理出定制貼紙的下單明細 。
當然 , 為確保流程安全、靈活且清晰可控 , 面對涉及金額的支付環節 , 則只會由用戶手動接管瀏覽器完成 。
通過連接器 , 用戶還可將 Gmail、GitHub 等日常應用接入 ChatGPT , 讓模型讀取郵件、日歷或代碼庫等上下文內容 , 并執行諸如總結今天的郵箱內容或查找下周空閑會議時間等任務 。
一個更典型的應用場景是 , OpenAI 研究員能夠讓 ChatGPT Agent 匯總自己在多項基準測試中的表現 , 并制作成幻燈片 。 收到命令后 , Agent 會調用 Google Drive 連接器讀取數據文件 , 用終端編寫代碼繪制圖表 , 并生成完整的 PPT 。
這類自動化能力 , 都是 Agent 深度嵌入工作流的體現 。
不過 , 可以看到 , ChatGPT Agent 生成的 PPT 在設計審美方面表現比較一般 , 并且 , 雖然可以上傳電子表格供 ChatGPT 編輯或作為模板使用 , 但生成的 PPT 暫不支持二次修改 。
需要說明的是 , OpenAI 并不是讓 Agent 像人一樣打開 PPT或 Excel 文件 , 通過點擊來插入文本框和公式 , 而是直接生成代碼來創建文檔 。 這種做法的好處是可以利用模型在代碼編寫方面的天然優勢 , 避免因模擬點擊操作帶來的效率低下或出錯 , 也降低了對計算資源的消耗 。
The Information 報道指出 , 如果 ChatGPT 要直接編輯 PPT 或 Excel 文件 , 就需要啟動一臺「虛擬機」(即通過 ChatGPT 運行的虛擬計算機環境) , 這會占用更多計算資源 。
而直接生成代碼則更輕量、高效 。 盡管潛力巨大 , 但就目前來看 , 這一功能短期內很難對微軟的 Office 或者 Google Workspace 造成沖擊 。
對于 ChatGPT Agent 功能 , Pro 用戶將在今天之內獲得訪問權限;Plus 與 Team 用戶將在接下來的幾天內陸續開放;企業版(Enterprise)和教育版(Education)將在未來幾周內上線
Pro 用戶每月可使用 400 條消息 , 其他付費用戶每月可使用 40 條消息 , 并可通過彈性積分方案購買更多額度 。
全線刷新「跑分」記錄 , Agent 戰場迎來最強對手ChatGPT Agent 能力的提升 , 也體現在「跑分」環節 。
在評估 AI 解決跨學科專家級問題的基準測試 Humanity’s Last Exam(HLE)中 , 搭載智能體的 ChatGPT 模型以 41.6 的 pass@1 得分刷新紀錄 。 在啟用并行執行策略后 , 該得分進一步提升至 44.4 。
在目前被認為最具挑戰性的數學基準 FrontierMath 中 , 面對難度極高、從未公開的題目 , ChatGPT Agent 在具備終端代碼執行能力的前提下 , 取得了 27.4% 的準確率 , 遠高于此前模型 。
在這一復雜且高經濟價值的知識型工作任務的內部基準測試中 , ChatGPT Agent 在約一半的任務中輸出質量已達到甚至超過人類水平 , 表現也顯著優于 o3 和 o4-mini 模型 。
在一個內部的投行建模任務基準中 , ChatGPT 智能體的表現也顯著優于 Deep Research 和 o3 模型 。 每個任務都基于數百項關于公式正確性、格式規范等評分標準進行評估 。
此外 , 在公開評估模型信息查找能力的 BrowseComp 基準上 , Agent 以 68.9% 的準確率刷新記錄 , 較 Deep Research 高出 17.4 個百分點 。 在 WebArena 評估中 , 其網頁任務執行能力也優于基于 o3 的 CUA 模型 。
從平臺視角看 , Agent 能力的底層接口 , 正是瀏覽器 。
在 Perplexity AI CEO Aravind Srinivas 最近的采訪中 , 他表示瀏覽器將會是 AI 的「殺手級應用」 。 在他看來 , 瀏覽器天然具備讓 AI 真正「動起來」的全部條件 。
不同于傳統聊天機器人 , AI Agent 的理想形態不是停留在對話框中生成文本 , 而是具備實際行動力——從訪問網頁、提取信息、填寫表單 , 到執行跨平臺操作 。 而這一切 , 瀏覽器恰好具備所需的操作權限和上下文獲取能力 。
瀏覽器可以直接讀取頁面、模擬點擊、自動執行任務 , 幾乎無需額外授權 。
在這個過程中 , 用戶與 AI 共處于同一個交互空間:AI 可以自動執行任務 , 用戶也能隨時中斷或接管 , 避免黑盒操作帶來的不確定性 。 這種可控性與透明度 , 是當前許多上下文協議仍難實現的能力 。
如今 , 隨著 ChatGPT Agent 能力正式上線 , 所有聲稱要做 Agent 的廠商 , 恐怕都要重新審視自己的產品路徑 。
當 ChatGPT 從語言交互工具 , 轉向具備協作、調度與承接任務能力的執行系統 , 開始接入用戶的真實工作流 , Agent 的可用性門檻 , 也在此刻被實質性地拉高 。
#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr) , 更多精彩內容第一時間為您奉上 。
愛范兒|原文鏈接· ·新浪微博
推薦閱讀
- 剛剛,OpenAI 發布了自己的 Agent模式,Manus Style
- 346W!小米這1TB新機一發布,又是碾壓全場
- 搭載首顆量產大算力AI芯片的一體機發布
- 499元,小米剛剛公布的6000mAh新品,有點騷啊
- 索尼 RX1R III發布!6100萬像素全幅便攜旗艦,真旗艦還是情懷?
- 1399元!剛發布的“8300mAh大電池”手機,絕對是來搗亂的
- 發布在即,新款 iPhone 17 配件已經提前開售!
- 剛剛,亞馬遜推Agent全家桶!5招連發,狂堆猛料,吹響AI集結號
- OpenAI正式引入谷歌云作為戰略供應商,強化ChatGPT全球算力部署
- OPPO K13 Turbo系列7月21日發布,紅魔手機如臨大敵
