ChatGPT-5.4屬實“動手王者”,一句話征服微信,但是我卻被氣笑了

ChatGPT-5.4屬實“動手王者”,一句話征服微信,但是我卻被氣笑了

文章圖片

ChatGPT-5.4屬實“動手王者”,一句話征服微信,但是我卻被氣笑了

文章圖片

ChatGPT-5.4屬實“動手王者”,一句話征服微信,但是我卻被氣笑了

文章圖片

ChatGPT-5.4屬實“動手王者”,一句話征服微信,但是我卻被氣笑了
"multi_version":false
自從OpenAI發布GPT-5.4以后 , 我的朋友圈和訂閱的公眾號就被它占領了 。
所有人都在討論同一個詞 , 叫做原生電腦操控能力(Native Computer Use) 。 鋪天蓋地的標題寫著“AI終于能接管你的電腦了”“GPT-5.4操控桌面超越人類水平” , 評論區也都清一色地在喊“為時已晚 , 有機體!”
說實話 , 看到這些宣傳的時候 , 我的第一反應不是興奮 , 而是懷疑 。 因為“AI操控電腦”這個概念并不新鮮 , 今年1月OpenClaw爆火的時候 , 大家就已經見識過了 。
而且過去兩年 , 每隔幾個月就有人喊一次“agent時代來了” , 結果每次實際體驗都差點意思 。 所以這次GPT-5.4的“原生電腦操控” , 到底是真的質變 , 還是又一輪營銷話術?
我決定自己動手試試 。
花了大半天進行測試 , 我的結論是:它確實邁出了很大一步 , 但也確實沒有宣傳里說的那么神 。
有些場景讓我真心震撼 , 有些場景又讓我哭笑不得 。
以及可以肯定的是 , ChatGPT-5.4它遠不止內置了一個OpenClaw那么簡單 。
01
ChatGPT 終于學會“動手”了
GPT-5.4是OpenAI 第一個內置電腦操控能力的主線模型 。
【ChatGPT-5.4屬實“動手王者”,一句話征服微信,但是我卻被氣笑了】這里得先解釋一下“原生電腦操控能力”(Native Computer Use) 。
這個概念聽起來很唬人 , 但其實核心邏輯并不復雜 。
以前的ChatGPT , 本質上都是一個“嘴強王者” 。 你問它怎么在Excel里做個數據透視表 , 它能給你寫出詳細到令人發指的教程 , 但它自己動不了手 。 你得自己一步步照著做 。
而原生電腦操控能力 , 說人話就是AI不只是會聊天了 , 它會像人一樣直接用電腦干活 。 它能看到當前屏幕上有什么 , 理解哪個是瀏覽器、哪個是按鈕、哪個是輸入框 , 然后自己去點擊、輸入、切換窗口、滾動頁面、提交表單 。 發現做錯了 , 它還能回退或者換一種操作方式 。
舉個例子 , 我讓Codex給我在文件里生成一個TXT , 然后寫一句話“你好 世界” , 那么Codex就真的新建一個TXT , 然后在里面寫字 。
你可能會問 , 這和寫個自動化腳本有什么區別?
區別大了 。 傳統的自動化腳本需要提前把每一步流程寫死 , 網頁結構一變、按鈕位置一挪 , 腳本就廢了 。 但原生電腦操控能力更像是一個人在操作 , 它能看到屏幕上的內容 , 根據當前的實際情況判斷下一步該干什么 , 具備隨機應變的能力 。
我們可以用微信來舉例子 , 因為微信從產品設計、底層架構到安全體系 , 從根源上就沒有給第三方agent留任何合規的技術通道 。
而且微信的API是外部系統與微信服務端合規交互的唯一官方通道 , 而截至目前 , 微信開放平臺完全沒有對外開放個人微信賬號的私聊、群聊消息發送相關的API接口 。
但ChatGPT-5.4實現了 。

我通過Codex要求ChatGPT-5.4歸納24小時內的AI新聞 , 然后將其以字母AI的風格轉化為選題 , 最后發到群里供同事們查看 。 并且在選題最后 , 寫一句話代表這條消息是ChatGPT-5.4發送的 。
ChatGPT-5.4不僅完成任務 , 還主動提出要求 , 幫我把這段話改得更自然 。
它現在不僅能看懂屏幕上的元素 , 還能實現完整的鍵盤鼠標模擬 。
當時我的內心是無比震驚的 , 因為哪怕是OpenClaw , 想要征服微信都要費很大力氣 , ChatGPT-5.4竟然這么輕易就能實現了 。
于是我例行測試了一下ChatGPT-5.4對瀏覽器的控制 , 我本以為這是個簡單活兒 , 畢竟我的瀏覽器就是Chrome , 而OpenAI自己的AI瀏覽器用的也是Chrome內核 。
結果卻給我氣笑了 。
我讓Codex打開douyin.com , 可ChatGPT-5.4給我打開的是“抖音 。 com”

于是我問Codex , 怎么輸入的是中文 , 它跟我說因為它是模擬鍵盤輸入 , 我的輸入法是中文 , 所以輸錯了 。 由于英語鍵盤是沒有輸入欄的 , 也就意味著ChatGPT-5.4看不到輸入欄 , 所以當我切換成中文輸入法的時候 , 它就沒辦法正常輸入網頁 。

當然 , 它也不是萬能的 。 頁面太復雜的時候容易點錯地方 , 操作速度通常比人慢 , 而且涉及付款、刪除文件、處理隱私數據這類高風險操作時 , 你最好還是盯著點它 。
OpenAI給了ChatGPT兩種“動手”的方式 。 第一種叫代碼模式 , AI會用Python寫Playwright腳本來操控瀏覽器和應用程序 , 點哪里、輸入什么、怎么導航 , 全部通過代碼精確執行 。
第二種叫截圖模式 。 AI直接“看”你的屏幕截圖 , 然后像人一樣發出鼠標和鍵盤指令 , 不需要任何代碼作為中間層 。
OpenAI還專門做了一個叫“Playwright Interactive”的實驗性功能 , 讓AI可以一邊寫代碼一邊實時測試 , 甚至能在構建網頁應用的同時自己打開瀏覽器去調試 。

官方演示里 , GPT-5.4 從一句話的提示出發 , 直接生成了一個等距視角的主題公園模擬游戲 , 帶路徑鋪設、游客尋路、排隊系統 , 然后自己打開瀏覽器去玩了一遍來檢查Bug 。
一句話變成一個可運行的游戲 , 這個演示確實唬人 。
02
不只是接管電腦
有一個叫做OSWorld-Verified的測試 , 是專門衡量AI通過截圖加鍵盤鼠標自主操控桌面能力的基準測試 , 在這項測試中GPT-5.4拿到了75.0%的成功率 。
上一代GPT-5.2只有47.3% , 而人類基準線是72.4% 。
也就是說 , GPT-5.4 在“看著屏幕操作電腦”這件事上 , 已經超過了普通人的平均水平 。
在WebArena-Verified上 , GPT-5.4也拿到了67.3%的成功率;在Online-Mind2Web 上 , 僅靠截圖觀察就達到了92.8% 。
這些數字的意義在于 。 如今的ChatGPT在操控電腦這方面 , 已經不再是實驗室里的玩具 , 它是真的能用了 。
其實不難看出 , OpenClaw對ChatGPT-5.4的加持很大 。
2026年2月14日 , 斯坦伯格正式宣布加入OpenAI 。 奧特曼同步在 X 平臺官宣 , 稱其將負責 “推動下一代個人agent的研發” 。
同時明確OpenClaw項目將移交至獨立開源基金會運營 , OpenAI承諾為項目提供持續的資源、資金與技術支持 。
于是ChatGPT-5.4就帶著濃烈的OpenClaw味登場了 。
OpenClaw有一個大問題 , 貴 。 由于軟件本身會將上下文一并發送至大模型 , 這就導致在一些場景下 , 它的token消耗會非??植?。
所以OpenAI引入了一個叫“Compaction”的機制 , 上下文壓縮 。 簡單來說 , 當AI在執行一個很長的多步驟任務時 , 它會自動總結和修剪中間過程的歷史記錄 , 只保留關鍵信息 。
這樣既能維持長任務的連貫性 , 又不會把 token 預算一下子燒光 。 這是GPT-5.4作為第一個主線模型被訓練支持的能力 , 之前只有專門的Codex編碼模型才有類似的功能 。

然后是推理能力 。 GPT-5.4 Thinking版本有一個很實用的新特性 , 在處理復雜問題時 , 它會先展示一個推理計劃的大綱 , 告訴你“我打算怎么做” 。
更關鍵的是 , 你可以在它推理的過程中隨時打斷、調整方向 , 不用從頭再來 。 這個功能聽起來不起眼 , 但用過就知道 , 以前讓AI做一個復雜任務 , 如果方向跑偏了 , 你只能重新發一條消息從零開始 。
現在你可以中途喊停說“不對 , 換個思路” , 它能接著往下走 。
在專業知識工作的GDPval基準上 , GPT-5.4拿到了83.0% , 而GPT-5.2是70.9% , 提升了12個百分點 。 在BrowseComp(衡量 AI 持續瀏覽網頁查找難以定位的信息的能力)上 , GPT-5.4 Pro版本達到了89.3% , 刷新了紀錄 。
Mercor的APEX-Agents基準測試也顯示 , GPT-5.4 在制作幻燈片、金融建模、法律分析這類長周期專業任務上表現突出 。
另外還有一個面向開發者的重要更新 , 那就是Tool Search 。
以前調用 API 時 , 所有可用工具的定義都要一股腦塞進上下文里 , 光這些定義就能吃掉幾萬個token 。 現在GPT-5.4只加載一個輕量級的工具列表 , 需要用哪個再去查具體定義 。 在Scale的 MCP Atlas 基準測試中 , 這種方式在36個MCP服務器的場景下 , token消耗直接降低了47% , 準確率不變 。
最后 , OpenAI還推出了ChatGPT直接嵌入Microsoft Excel和谷歌Sheets的集成功能 。 GPT-5.4可以讀取單元格范圍、執行多步分析、自動寫公式 。
這對企業用戶來說是個大殺器 , AI不再是你和表格之間的“傳話筒” , 它直接坐進了你的表格里干活 。
但我也有一些擔憂 。 OpenClaw之所以魔幻 , 不僅僅是因為AI能做事 , 更是因為 AI 做的事經常超出人類預期 , 當這種能力被內置到一個擁有數億用戶的產品里 , 我總覺得心里毛毛的 。
Codex現在可以設置 , 讓ChatGPT-5.4擁有完全訪問你電腦的權限 , 從而做到真正的原生控制 。

說實話 , 這個功能我不敢測試 , 甚至連開啟都不敢 。 別問 , 問就是我電腦花錢買的 , 而且包含了我的個人敏感數據 。
OpenAI在GPT-5.4的安全評估中提到 , Thinking版本的欺騙行為概率更低 , “說明模型缺乏隱藏其推理過程的能力 , 思維鏈監控仍然是有效的安全工具” 。
這話聽著讓人安心 , 但也側面說明了一個事實 , 他們確實在擔心AI會“隱藏推理過程”這件事 。
不管怎樣 , GPT-5.4的發布標志著一個新階段的開始 。 AI不再只是對話框里那個能說會道的助手 , 它正在學會伸出手來 , 觸碰你的屏幕、你的文件、你的工作流 。
那只龍蝦現在已經游進了OpenAI的池塘里 , 而它掀起的浪 , 才剛剛開始 。

    推薦閱讀