
文章圖片

文章圖片

文章圖片
作者|Li Yuan
一個共識是 , AI 今年的大主題 , 是 Agent 。
如果說過去我們習慣了 AI 的「動嘴」 , 那么接下來 , 就是 AI「動手」的時代 。 畢竟 , 既然 AI 已經能聽懂、又足夠聰明 , 那為什么不能直接把事兒干完?
2025 年下半場剛開局 , 一直在定義 AI 的 OpenAI , 突然端出了他們的 Agent 答卷 。 不過有趣的是 , 乍一看 , 它和幾個月前爆火的 Manus 模式 , 驚人地相似 。
7 月 18 日凌晨 , Sam Altman 和四位 OpenAI 研究員在直播中介紹了 OpenAI 即將推出的 Agent 模式 。
簡單來說 , 在 Agent 模式下 , 你可以直接對 ChatGPT 提要求:婚禮缺雙鞋 , 去電商平臺幫我買了;或者 , 給我設計個寵物周邊 , 直接下單打?。 徊檎倚畔?, 直接生成 PPT 。 然后 , ChatGPT 會自己打開虛擬機 , 一步步操作 。
在演示中 , 一個復雜任務大概需要 10 分鐘完成 。 但從結果看 , 完成度很高 。 ChatGPT 可以在虛擬環境里可以調用文本瀏覽器、可視化瀏覽器和終端 。 而基于終端 , 還可以進一步調用云服務 API、圖片生成器 , 運行代碼等 。
更關鍵的 , 這次 OpenAI 不再 Pro 用戶優先 , Plus、Team 用戶也將能很快上手 , 每月可用 40 次 。 量大 , 管飽 。
Sam Altman 用他標志性的真誠眼神 , 對著屏幕說:這是一個全新的范式 。 就像我們學會上網 , 最后也學會了甄別詐騙信息一樣 , 現在 , 整個社會需要學習如何與 Agent 安全地交互和共存 。
01Agent 模式能干什么?
直接觀看 OpenAI 的 Agent 模式演示 , 會發現其直觀體驗與幾個月前爆火的 Manus 高度相似 。
在用戶提出需求之后 , 都會自動開啟一個虛擬機 , 開始自動執行一些任務 , 執行過程中 , Agent 會反復請求用戶確認 , 并允許隨時手動接管 。 同時 , 用戶也能在任務中途植入新需求 , 進行實時交互 。
而在 OpenAI 的介紹中 , Agent 模式可以調用三種工具:文本瀏覽器、可視化瀏覽器和終端 。 模型可以自主選擇切換各種工具 。
這種工具組合的設計頗為精巧:文本瀏覽器負責大量瀏覽文字 , 搜尋信息 , 而可視化瀏覽器則負責定位到信息之后直接模擬一些鍵鼠交互 , 或者用來讀取圖像信息 。
而終端 , 則可以運行代碼 , 生成包括 PPT、Excel 在內的文件 , 和調用一些云端 API 。
在 OpenAI 提供的第一個演示里 , 研究員提出要規劃參加另一個朋友婚禮的事宜 , 要挑選一套符合著裝要求的禮服(考慮場地、天氣、中高檔價位)預訂酒店 , 同時提供禮物建議 。
研究員首先在 ChatGPT 里切換到 Agent 模式 , 把上述需求發過去 。 Agent 啟動虛擬電腦、加載環境(大約幾秒) 。
然后 ChatGPT 先試用文本瀏覽器打開了用戶給的網頁 , 搜索婚禮信息、著裝要求、天氣等 。 發現需要進一步確認婚禮日期時 , 模型也提出了澄清請求 , 但用戶選擇讓它自己繼續推理 。
在找到了天氣、場地信息后 , AI 開始推薦合適的禮服 , 并切換到可視化瀏覽器檢查禮服效果 。 完成任務后 , 繼續搜索酒店和禮物 。
可以看到 , 最后給出的婚禮出行建議報告非常長而詳細 , 涵蓋了服裝、酒店、禮物 。 甚至附上了非常多的鏈接 , 在酒店是否有空位的索引上 , 還附上了在線預訂網站的截圖 。
而完成這樣的一份報告 , AI 只花了十分鐘 。 相比于我們熟悉的一問一答看起來時間是長了很多 , 但是相比于實際的工作量 , AI 看起來還是要比人的效率高太多了 。
如果說這個演示還是更加體現其研究能力 , 另一個演示則直接展示了其動手能力 。
研究員要求給團隊的吉祥物(是一只可愛的狗狗 , 昵稱 Bernie)做出一批筆記本貼紙 , 并下單 500 張 。
Agent 直接利用終端功能 , 調用了圖像生成工具(Image Gen API)來生成一張動漫風格的狗狗插畫 , 作為貼紙的設計圖案 。
接著 , Agent 打開瀏覽器訪問 Sticker Mule 網站 , 把設計好的圖上傳到網站 , 填寫了貼紙數量、尺寸等 , 并把商品加入購物車 。
最后它主動向用戶確認 , 是否要用這張插畫?是否繼續下單?是否需要用戶自己輸入信用卡付款 , 還是讓它繼續完成?
任務停留在讓用戶接管輸入信用卡 , 花了 7 分鐘 。
同樣的能力 , Agent 還自己連接 Google Drive API(類似于國內的網盤) , 讀取文件之后生成了一份 PPT 。
查詢了賽季日程 , 生成了一個詳細的旅行電子表格 + 帶標注地圖的旅行攻略 。 這個任務比較復雜 , Agent 大約花了 25 分鐘完成 。
02輕描淡寫:AI 能力又進步了
OpenAI 此次推出的新 Agent 模式 , 實際上并不是一項全新的創新 , 而是由 OpenAI 上半年推出的兩樣工具組合而成:Operator 和 Deep Research 。
Operator 是原本只開放給了 Pro 用戶的瀏覽器 Agent 工具 , 能夠分析圖形操作界面 , 并做出一定的操作 。
而 Deep Research , 則是一個深入研究的分析工具 , 可以閱讀大量的網頁 , 直接生成一份調研報告 。
OpenAI 表示 , 在兩樣工具分別推出的過程中 , 發現很多用戶用 Operator 寫的提示詞其實更像 Deep Research 的任務 , 比如「計劃一次旅行并預訂」 。 而 Deep Research 用戶高度呼吁增加「登錄網站、訪問受保護資源」的能力 , 其實是 Operator 早就能做的 。 于是團隊決定將兩個產品融合起來 。
這和剛剛離職的 OpenAI 的工程師爆料的 OpenAI 的團隊文化其實很接近:OpenAI 內部很看重工程師的自驅力 , 常常有多個類似的項目同時在推進 , 誰想做誰就能往前推進 。
此次 Operator 和 Deep Research 的融合看起來還是很成功的 。 兩個從不同角度推動的 Agent 項目 , 最后融合起來 , 有了一些奇妙的化學反應 , 也避開了只使用瀏覽器的圖形界面去閱讀文字材料的低效 , 讓最后能形成深度報告的時長變得并不高 。
OpenAI 也提到了在為模型提供多種工具之后 , 怎樣訓練模型 。
仍然是使用強化學習 。 一開始模型會「笨拙」地嘗試用所有工具解決一個相對簡單的問題 。 也就是說 , 它剛開始不會判斷哪個工具更合適 。
通過獎勵它那些解決問題更高效、更合理的行為 , 模型能逐漸學會如何用這些工具 。 在什么情況下用哪個工具最合適 。
比如如果是做創意作品 , 它會先搜索公開資源;然后用終端寫代碼、編譯作品;最后用可視化瀏覽器驗證結果 。
而在一堆 Demo 中 , OpenAI 也輕描淡寫地又拋出了一個新的基準測試成績 。
在 Humanities Last Exam(人類的最后一場大考)中 , 能夠使用瀏覽器、電腦和終端的 Agent 模式模型 , 已經能夠達到 42%的高分 , 相比于完全不使用工具的 o3 , 有一倍的提升 。
【剛剛,OpenAI 發布了自己的 Agent模式,Manus Style】而在世界范圍內也是領先的——Grok 宣布帶工具的 Grok 4 Heavy 在測試中取得 45% 的成績 。
使用工具后的高級數學推理能力 , 也有了進一步的提升 。
公布的基準中 , 有兩個是和人類的對比 。
一個是在網頁中操作的能力(WebArena) , 一個是操作電子表格的能力(SpreadsheetBench) 。 可以看到 , 兩項基準中 , Agent 模式仍然不如人類 , 但是網頁操作 , 已經追近了人類水平 。
這意味著 , 即便只是整合這些本身尚不如人類的工具 , 大模型也能獲得顯著的能力提升 。 Agent 時代 , 大模型能力的提升顯然還有更高的天花板 。
03和 Agent 共處的時代 , 確實來了
毫無疑問 , Agent 是 2025 年 AI 領域的絕對風口 。
但風口之下 , 用戶的真實體感往往并不完美:任務運行時間過長;稍復雜的任務就頻頻出錯 。 一位早期 Operator 用戶評論道「每次點擊和滾動 , 都像在炎熱夏日中游泳 。 」
此次 OpenAI 將 Operator 與 Deep Research 融合 , 或許正是為了緩解這種「粘滯感」 , 讓 Agent 真正跑起來 。
當 OpenAI 自己下場 , 一個更直接的問題擺在了所有類似 Manus 的第三方開發者面前:這究竟是會催生一個繁榮的 Agent 應用生態 , 還是會直接碾壓所有創業公司?答案尚不明朗 。
而對于用戶而言 , 一個更切身的挑戰隨之而來:隱私和安全 。
當 AI 在我們看不見的虛擬機里 , 點開一個網頁、輸入我們的個人信息時 , 誰來保證安全?
如果它被釣魚網站騙走了我們的信用卡號 , 責任誰負?
OpenAI 對此的回應是 , 他們會采取極其嚴格的審查和安全措施 , 但它也希望整個社會都能花時間去適應和建立規范 。
Agent時代 , 確實是繼Chat時代之后 , 一個截然不同的新階段 。
在Chat時代 , 我們學會了適應AI的“嘴”——我們慢慢習慣了它的幻覺 , 并學會在它的花言巧語中甄別真偽 。 這是一個關于“信息可信度”的挑戰 。
而在Agent時代 , 挑戰則完全轉向了AI的“手” 。 我們需要回答一系列全新的問題:我們究竟愿意多信任 AI?我們又愿意把多大的權限交出去 , 讓它代替我們完成多少現實世界的事情?
而我們與AI的關系 , 也將因此被重新定義 。
從更宏觀的視角看 , Agent 的爆發也將再次將一個老問題以更尖銳的方式推到我們面前:當 AI 能真正「干活」時 , 我們的工作會怎樣?
當 AI 能獨立完成一份包含數據檢索、圖像查證的復雜報告 , 并直接完成在線預訂時 , 白領們的工作究竟是被賦能加速 , 還是被徹底威脅?
答案尚在風中飄 。
但無論我們歡迎、恐懼還是茫然 , 一個由 Agent 驅動的、更自動化的新時代 , 確實正在加速到來 。
推薦閱讀
- 346W!小米這1TB新機一發布,又是碾壓全場
- 搭載首顆量產大算力AI芯片的一體機發布
- 499元,小米剛剛公布的6000mAh新品,有點騷啊
- 索尼 RX1R III發布!6100萬像素全幅便攜旗艦,真旗艦還是情懷?
- 1399元!剛發布的“8300mAh大電池”手機,絕對是來搗亂的
- 發布在即,新款 iPhone 17 配件已經提前開售!
- 剛剛,亞馬遜推Agent全家桶!5招連發,狂堆猛料,吹響AI集結號
- OpenAI正式引入谷歌云作為戰略供應商,強化ChatGPT全球算力部署
- OPPO K13 Turbo系列7月21日發布,紅魔手機如臨大敵
- 剛剛發布的小屏手機銷量榜,把我看懵了
