Claude 4.5 剛剛發布,能連肝 30 多個小時,史上最卷 AI 誕生

Claude 4.5 剛剛發布,能連肝 30 多個小時,史上最卷 AI 誕生

文章圖片

【Claude 4.5 剛剛發布,能連肝 30 多個小時,史上最卷 AI 誕生】Claude 4.5 剛剛發布,能連肝 30 多個小時,史上最卷 AI 誕生

文章圖片

Claude 4.5 剛剛發布,能連肝 30 多個小時,史上最卷 AI 誕生

文章圖片

Claude 4.5 剛剛發布,能連肝 30 多個小時,史上最卷 AI 誕生

論卷編程 , 還得看 Claude 。
就在剛剛 , Anthropic 正式發布 Claude Sonnet 4.5 。
先說 Claude Sonnet 4.5 交出的成績單 , 在考察真實編程水平的 SWE-bench Verified 測試里 , Claude Sonnet 4.5 直接登頂業界第一 。
更離譜的是 , 它能連續專注干活超過 30 小時 。
好好好 , AI 取代人類的優勢又 +1 了 。
比如讓它寫個類似 Slack 或 Teams 的聊天應用 , 它能一口氣敲出大約 1.1 萬行代碼 。 相比之下 , 之前的 Claude Opus 4 和 Codex , 最多也就能獨立工作七小時 。
用 Anthropic 的話來說 , Claude Sonnet 4.5 現在就是全球最強編程模型——構建復雜智能體、操作電腦、推理和數學 , 各項能力都狠狠提升了一波 。
比方說 , 在 OSWorld 這個專門測試真實計算機任務的基準里 , 它拿下了 61.4% 的成績 , 直接第一 。 要知道 , 四個月前 Sonnet 4 還以 42.2% 的成績遙遙領先 , 這才多久性能就又往上抬了一大截 。
而 Anthropic 的 Claude Chrome 插件甚至能直接在瀏覽器里自己導航網站、填表格、處理任務 , 像個真人在操作似的 。 推理、金融這些測評項目上也都更強了 , 各項指標都在往上漲 。
有了這么強的能力 , Anthropic 這次自然不會只發個模型就完事 。
具體來看:
Claude Code加了「檢查點」功能 , 能隨時保存進度 , 想回退到之前某個狀態一鍵搞定 終端界面翻新 , 還發布了原生 VS Code 插件 Claude API 增加了上下文編輯功能和記憶工具 代碼執行和文件創建現在直接整合到對話里甚至 , Anthropic 把自己內部用來搭建 Claude Code 的底層基礎設施也開放出來了 , 叫 Claude Agent SDK 。
智能體怎么在長時間任務里管理記憶、怎么設計權限系統讓自主性和用戶控制找到平衡點、怎么讓多個子智能體配合著完成目標 , 這些都是構建和設計 AI 智能體的棘手問題 。
而借助 Claude Agent SDK , 現在你也能拿去構建自己的產品 。
今天起 , 開發者還可以通過 Claude API 調用 claude-sonnet-4-5 。 定價還是跟 Claude Sonnet 4 一樣 , 每百萬 tokens $3/$15 , 價格沒變能力更強 。
網友 @vasumanmoza 體驗完直接發帖:
「Claude 4.5 Sonnet 剛在一次調用里重構了我整個代碼庫 , 25 次工具調用 , 新增 3000 多行代碼 , 生成了 12 個全新文件 。 它把所有東西都模塊化了 , 拆掉了巨石式結構 , 清理了意大利面條式代碼 。 結果完全跑不通 , 但天啊真的很優雅 。 」這評價 , 屬于又愛又恨那種 。
Cursor 表示 , 在 Claude Sonnet 4.5 上看到了最前沿的編程性能 , 尤其處理長周期任務時提升明顯 。 這也再次說明為什么很多 Cursor 用戶會選 Claude 來解決最復雜的問題 。
知名測評博主 Dan Shipper 則表示 , 新版 Sonnet 4.5 在使用體驗上響應速度更快 , 可控性更強 , 也更穩定 。
性能強是一方面 , 安全性也得跟上 。
據介紹 , Claude Sonnet 4.5 也是 Anthropic 到目前為止對齊度最高的前沿模型 。
靠著 Claude 更強的能力加上完善的安全訓練 , Anthropic 在模型行為上取得了顯著改進 , 減少了阿諛奉承、欺騙、權力追求、鼓勵妄想等行為 。 此外 , Anthropic 在防御提示注入攻擊和減少內容誤判這塊也有了重大突破 。
比較讓我感興趣的是 , Anthropic 還在 Claude Sonnet 4.5 發布的同時推出了個臨時研究預覽功能 , 叫「Imagine with Claude」 。
在這個功能里 , Claude 會實時生成軟件 , 所有功能不是預設的 , 所有代碼也不是提前寫好的 。 你看到的一切都是 Claude 跟你互動時當場創造和調整出來的 。
不過 , 「Imagine with Claude」接下來五天內只會對 Max 訂閱用戶開放 。
附上傳送門 claude.ai/imagine 。
毫無疑問 , 今年的 AI 賽道依舊是卷編程的一年 。
目前 Anthropic 估值已經到了 1830 億美元 , 8 月還實現了年化營收 50 億美元 , 但這其中相當一部分增長靠著來自編程軟件的普及 。 問題是 , 老對手 OpenAI 和 Google Gemini 也在瘋狂推類似工具搶程序員用戶 。
甚至一周之后就是 OpenAI 年度開發者大會 , Anthropic 這個時候搶先發布 Claude Sonnet 4.5 , 時間卡得夠精準 , 明擺著就是要給對手上一波壓力 。
此外 , Anthropic 聯合創始人兼首席科學官 Jared Kaplan 還表示 , 更先進的 Opus 模型 , 預計今年晚些時候推出:「Anthropic 在大小模型的使用上都能占優勢 。 」
不過有一說一 , Anthropic 自己眼下也有麻煩要解決 。
過去兩個月 , Claude 系列模型剛經歷了一場「降智」風波 。 用戶普遍反映模型推理、代碼、格式和工具調用質量斷崖式下滑 , 連付費的 Max 用戶都沒能幸免 。
雖然 Anthropic 后來緊急回滾了 Opus 4.1 更新 , 還承認了兩個獨立 Bug , 聲明「絕非為省成本故意降智」 , 但由于沒提供補償或退款 , GitHub 和 X 等平臺上還是出現了退訂潮 , 不少用戶直接轉投 Codex 。
這次 Claude Sonnet 4.5 的發布 , 顯然就是 Anthropic 想用實打實的性能提升來挽回流失的用戶 。 至于能不能成功 , 就看接下來幾周的實際表現了 。
#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr) , 更多精彩內容第一時間為您奉上 。
愛范兒|原文鏈接· ·新浪微博

    推薦閱讀