AI公司推動用戶從聊天機器人轉向管理智能體團隊

AI公司推動用戶從聊天機器人轉向管理智能體團隊

周四 , Anthropic和OpenAI推出了基于相同理念的產品:用戶不再是與單個AI助手聊天 , 而是管理分工協作、并行運行的AI智能體團隊 。 這些同步發布標志著整個行業從AI作為對話伙伴向AI作為代理勞動力的逐步轉變 , 而據報道 , 這一概念在本周導致軟件股蒸發2850億美元市值 。

這種監督管理模式在實踐中是否有效仍是一個開放問題 。 當前的AI智能體仍需要大量人工干預來捕捉錯誤 , 目前還沒有獨立評估證實這些多智能體工具能夠可靠地超越單獨開發人員的表現 。
盡管如此 , 這些公司仍在全力押注智能體技術 。 Anthropic的貢獻是Claude Opus 4.6 , 這是其最先進AI模型的新版本 , 配備了Claude Code中名為\"智能體團隊\"的功能 。 智能體團隊讓開發人員可以啟動多個AI智能體 , 將任務分解為獨立部分 , 自主協調并并發運行 。
在實踐中 , 智能體團隊看起來像一個分屏終端環境:開發人員可以使用Shift+Up/Down在子智能體之間跳轉 , 直接接管任何一個 , 并觀察其他智能體繼續工作 。 Anthropic將此功能描述為最適合\"分解為獨立的、以讀取為主的工作 , 如代碼庫審查\"的任務 。 該功能作為研究預覽版提供 。
同時 , OpenAI發布了Frontier , 這是一個企業平臺 , 公司將其描述為\"雇傭AI同事 , 承擔人們在計算機上已經在做的許多任務\"的方式 。 Frontier為每個AI智能體分配自己的身份、權限和記憶 , 并連接到現有的業務系統 , 如客戶關系管理系統、票務工具和數據倉庫 。 \"我們根本上在做的是將智能體轉變為真正的AI同事 , \"OpenAI商業對商業總經理Barret Zoph對CNBC表示 。
盡管關于這些智能體成為同事的宣傳很熱烈 , 但根據我們的經驗 , 如果將這些智能體視為放大現有技能的工具 , 而不是營銷語言暗示的自主同事 , 它們往往工作得最好 。 它們能快速產生令人印象深刻的草稿 , 但仍需要持續的人工糾正 。
Frontier的發布距離OpenAI發布Codex新macOS桌面應用僅三天 , OpenAI高管將其描述為\"智能體的指揮中心\" 。 Codex應用讓開發人員可以并行運行多個智能體線程 , 每個都通過Git工作樹在代碼庫的隔離副本上工作 。
OpenAI周四還發布了GPT-5.3-Codex , 這是一個為Codex應用提供動力的新AI模型 。 OpenAI聲稱 , Codex團隊使用GPT-5.3-Codex的早期版本來調試模型自身的訓練運行、管理其部署和診斷測試結果 , 這與OpenAI在12月接受Ars Technica采訪時所說的類似 。
\"我們的團隊對Codex能夠加速自身開發的程度感到震驚 , \"公司寫道 。 在Terminal-Bench 2.0(智能體編程基準測試)上 , GPT-5.3-Codex得分77.3% , 比Anthropic剛發布的Opus 4.6高出約12個百分點 。
所有這些產品的共同特點是用戶角色的轉變 。 開發人員或知識工作者不再只是輸入提示并等待單一回應 , 而是更像一個監督者 , 分派任務、監控進度 , 并在智能體需要指導時介入 。
在這種愿景中 , 開發人員和知識工作者實際上成為AI的中層管理者 。 也就是說 , 他們不是自己編寫代碼或進行分析 , 而是委派任務、審查輸出 , 并希望他們下屬的智能體不會悄悄搞砸事情 。 這是否會實現(或者是否真的是一個好想法)仍在廣泛辯論中 。
Claude背后的新模型
Opus 4.6是對Anthropic旗艦模型的重大更新 。 它繼承了Anthropic在11月發布的Claude Opus 4.5 。 在Opus模型系列中首次支持高達100萬Token的上下文窗口(測試版) , 這意味著它可以在單個會話中處理更大量的文本或代碼 。
在基準測試中 , Anthropic表示Opus 4.6在多項評估中超越了OpenAI的GPT-5.2(比今天發布的模型更早)和Google的Gemini 3 Pro , 包括Terminal-Bench 2.0(智能體編程測試)、人類最后考試(多學科推理測試)和BrowseComp(在線查找難以定位信息的測試) 。
應該注意的是 , OpenAI當天發布的GPT-5.3-Codex似乎在Terminal-Bench上重新奪回了領先地位 。 在ARC AGI 2(試圖測試解決對人類來說容易但對AI模型來說困難的問題的能力)上 , Opus 4.6得分68.8% , 相比之下Opus 4.5為37.6% , GPT-5.2為54.2% , Gemini 3 Pro為45.1% 。
像往常一樣 , 對AI基準測試要持保留態度 , 因為客觀衡量AI模型能力是一門相對較新且未定的科學 。
Anthropic還表示 , 在名為MRCR v2的長上下文檢索基準測試中 , Opus 4.6在100萬Token變體上得分76% , 相比之下其Sonnet 4.5模型為18.5% 。 這種差距對智能體團隊使用案例很重要 , 因為在大型代碼庫中工作的智能體需要跟蹤數十萬Token的信息而不丟失線索 。
API定價與Opus 4.5保持相同 , 每百萬輸入Token 5美元 , 每百萬輸出Token 25美元 , 超過20萬Token的提示按10美元/37.50美元的溢價收費 。 Opus 4.6在claude.ai、Claude API和所有主要云平臺上可用 。
市場外部的沖擊
這些發布發生在軟件股異常波動的一周內 。 1月30日 , Anthropic為Cowork發布了11個開源插件 , 這是其在1月12日推出的智能體生產力工具 。 Cowork本身是一個通用工具 , 讓Claude能夠訪問本地文件夾進行工作任務 , 但插件將其擴展到特定的專業領域:法律合同審查、保密協議分類、合規工作流程、財務分析、銷售和營銷 。
據報道 , 到周二 , 投資者對這一發布的反應是抹去了軟件、金融服務和資產管理股票約2850億美元的市值 。 高盛美國軟件股票籃子當天下跌6% , 這是自4月關稅驅動拋售以來最陡峭的單日跌幅 。 湯森路透領跌18% , 痛苦蔓延到歐洲和亞洲市場 。
投資者據稱擔心AI模型公司打包完整工作流程與現有軟件即服務供應商競爭 , 盡管這些工具是否能夠實現這些任務的結論仍未確定 。
OpenAI的Frontier可能會加深這種擔憂:其既定設計讓AI智能體登錄應用程序、執行任務并以最少的人工參與管理工作 , 《財富》雜志將此描述為成為\"企業操作系統\"的努力 。 OpenAI應用首席執行官Fidji Simo反駁了Frontier取代現有軟件的想法 , 告訴記者:\"Frontier實際上是對我們不會自己構建一切的認識 。 \"
無論這些協作應用是否真的達到其宣傳效果 , 趨同性都難以忽視 。 Anthropic的企業產品負責人Scott White給這種做法起了一個可能讓人翻白眼的名字 。 \"每個人都看到軟件工程在過去一年半中發生了這種轉變 , 氛圍編程開始作為一個概念存在 , 人們現在可以用他們的想法做事情 , \"White對CNBC說 。 \"我認為我們現在幾乎正在過渡到氛圍工作 。 \"
Q&A
Q1:Anthropic的智能體團隊功能是什么?它如何工作?
A:智能體團隊是Claude Code中的一項功能 , 讓開發人員可以啟動多個AI智能體 , 將任務分解為獨立部分 , 自主協調并并發運行 。 在實踐中看起來像分屏終端環境 , 開發人員可以在子智能體之間跳轉 , 直接接管任何一個 , 并觀察其他智能體繼續工作 。
Q2:OpenAI的Frontier平臺有什么特點?
A:Frontier是OpenAI的企業平臺 , 旨在\"雇傭AI同事\"承擔人們在計算機上的許多任務 。 它為每個AI智能體分配獨立的身份、權限和記憶 , 并連接到現有業務系統如客戶關系管理系統、票務工具和數據倉庫 , 讓AI智能體能夠登錄應用程序、執行任務并管理工作 。
Q3:Claude Opus 4.6相比前代有什么提升?
【AI公司推動用戶從聊天機器人轉向管理智能體團隊】A:Opus 4.6支持高達100萬Token的上下文窗口 , 可以在單個會話中處理更大量的文本或代碼 。 在多項基準測試中表現優異 , 特別是在ARC AGI 2測試中得分68.8% , 相比前代的37.6%有顯著提升 。 在長上下文檢索基準測試中 , 100萬Token變體得分76% 。

    推薦閱讀