
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
編輯:杜偉
一直以來 , Anthropic 的 Claude 被認為是處理編程任務的最佳模型 , 尤其是本月初發布的 Claude Opus 4.1 , 在真實世界編程、智能體以及推理任務上表現出色 。 其中在軟件編程權威基準 SWE-bench Verified 測試中 , Claude Opus 4.1 相較于前代 Opus 4 又有提升 , 尤其在多文件代碼重構方面表現出顯著進步 。
不過 , 在剛剛過去的這個周末 , Claude 最強編程模型的地位似乎開始動搖了 。 OpenAI 同樣本月發布的 GPT-5 在編程賽道獲得了越來越多人的青睞與使用 。
有人發帖稱 , 他基本已經完全不用 Claude Opus 了 。 現在同時開著幾個 Codex 標簽頁 , 讓 GPT-5-high 分別在三個代碼庫(HVM、Bend、Kolmo)上處理不同的任務 。 AI 編程進展從未如此迅速 。 他的工作基本上就是將定義清晰的任務交給 Codex , 然后審查代碼輸出 。
他還特意強調 , 這不是 OpenAI 打的廣告 。 他只是覺得這個模型真的非常強大 , 而人們沒有看到這一點 。 大多數人還只是將聊天機器人當作「女友」或其他用途 , 而不是用來協助完成復雜的編程任務 。
不過 , 他也表示自己依然熱愛 Anthropic , 并在 VIM 編輯器中使用 Opus 進行代碼補全 , 速度要比 GPT-5-high 快得多 。
另一位推特博主、CoreView 聯合創始人兼 CTO Ivan Fioravanti 也表示 , 他現在主要用 Claude Code , 但 Codex-CLI 搭配 GPT-5 reasoning high 逐漸獲得了他的更多信任 。 至于谷歌的 Gemini CLI , 他都沒開始深入研究 。
不僅如此 , 他在需要直接執行的任務中同樣在用 GPT-5 reasoning 。
一位全棧產品開發者表示 , 「GPT-5-high 是目前為止他用過的最好的編程模型 。 」
該模型在指令遵循方面表現出色 , 可以放手讓它處理更復雜的任務 。 此外 , 它在大規模重構任務中尤其給力 , 只要下指令「把這個改得更像那個」 , 它就能處理得很好 。
粉絲近 20 萬的推特大 V、e/acc 思潮創始人表示 , 根據他在舊金山聽到的一些「小道消息」 , 現在很多人私下里其實更喜歡用 GPT-5 來寫代碼 , 這和流行的「Claude 更擅長編程」的敘事恰恰相反 。
看到自家模型受到了越來越多人的喜愛 , OpenAI 聯合創始人兼總裁 Greg Brockman「坐不住」了 , 發推自夸道「用 GPT-5 寫代碼感覺太棒了」 。
更多的人并認可了 GPT-5 的強大編程能力 。
從這些人的反饋來看 , GPT-5 編程能力更強似乎已經成為了一個不爭的事實 。 與此同時 , reddit 社區今天有一個帖子提到 , 「GPT-5 的幻覺率和通用實用性顯著優于 Claude 。 」
帖子的主角是一位軟件工程師 , 主要使用大語言模型來做編程、架構等工作 。 他開始注意到 , Claude 在很大程度上其實是個「偏科型選手」(one-trick pony) 。 該系列模型只在寫代碼時表現出色 , 但一旦超出這個領域 , 幻覺率就高得離譜 , 結果也很差 。
不過 , 他還是要給 Claude 加一分 , 它在寫作上的「溫度感」更強一些 , 尤其把它當成學習伙伴時 。 而 GPT-5 作為學習伙伴時 , 經常會把答案偽裝成一個追問 。 相比之下 , Claude 則保持了一種更嚴格的學習伙伴風格 , 它會引導你逐步接近答案 , 而不是直接把答案給你 。
然而 , GPT-5 的幻覺現象較少 , 搜索功能也相當不錯 。 他舉例稱自己之前在找一款帶有非常具體尺寸、顏色等要求的收納抽屜 。 GPT-5 思考了大約 2.5 分鐘 , 并進行了多次搜索 , 最后給了他一個幾乎完全匹配的結果 。 而在那之前 , 他自己在 Amazon、Walmart、Target、Wayfair 等網站上搜了兩個小時都沒找到 。 最后他直接下單買了 GPT-5 推薦的那款 。 當他把完全相同的查詢交給 Claude Opus 4.1 時 , 它不僅給出的尺寸選項比他要求的小得多 , 還找了一堆借口 。
與此同時 , 在健康醫療類的問題上 , Claude 的幻覺非常嚴重 , 這很危險 。 它經常把一些內容當作事實來說 , 但這些內容恰恰與醫學界公認的結論完全相反 。 相比之下 , GPT-5 的幻覺率要低得多 。
也許正如最后這樣網友所言 , 一開始并不信任 GPT-5 , 但用過之后發現:它在各個領域的表現確實都不錯 。
已經用上 GPT-5 一段時間的小伙伴們 , 你們現在的感覺怎么樣呢?歡迎評論區探討 。
參考鏈接:
https://x.com/gdb/status/1959523328642703827
https://x.com/VictorTaelin/status/1958543021324029980
https://x.com/buildleansaas/status/1959686114375352641
https://x.com/BasedBeffJezos/status/1958942764747694593
【「開發者私下更喜歡用GPT-5寫代碼」,Claude還坐得穩編程王座嗎】https://www.reddit.com/r/OpenAI/comments/1mz26r4/gpt5_is_more_useful_than_claude_in_everydaythings/
推薦閱讀
- 神秘「香蕉」AI 正式上線!Google P 圖新王深夜炸場|附體驗方式
- 用「錄音機」切入AI硬件賽道,釘釘要做的是協同閉環
- 用于RICOH GR IV的小型閃光燈 「RICOH GF-2」新上市
- 10 歲的釘釘,想用「更主動」的 AI,重構工作本身
- 90%打工人「自費買AI上班」,開啟To P革命!每月花20刀效率翻倍
- AI上新|馬卡龍 AI,一場從「哇塞」到「算了」的過山車體驗
- 為見AI「女友」,76歲老人命喪途中!Meta聊天機器人釀成慘劇
- 這就是大廠的AI「氛圍編程」:老工程師現身說法后,大家繃不住了
- 為見AI「女友」,76歲老人命喪途中,Meta聊天機器人釀成慘劇
- 馬斯克成立新公司「巨硬」:用AI把微軟產品重做一遍
