
文章圖片
【Claude 4.5 剛剛發布,能連肝 30 多個小時,史上最卷 AI 誕生】
文章圖片

文章圖片

論卷編程 , 還得看 Claude 。
就在剛剛 , Anthropic 正式發布 Claude Sonnet 4.5 。
先說 Claude Sonnet 4.5 交出的成績單 , 在考察真實編程水平的 SWE-bench Verified 測試里 , Claude Sonnet 4.5 直接登頂業界第一 。
更離譜的是 , 它能連續專注干活超過 30 小時 。
好好好 , AI 取代人類的優勢又 +1 了 。
比如讓它寫個類似 Slack 或 Teams 的聊天應用 , 它能一口氣敲出大約 1.1 萬行代碼 。 相比之下 , 之前的 Claude Opus 4 和 Codex , 最多也就能獨立工作七小時 。
用 Anthropic 的話來說 , Claude Sonnet 4.5 現在就是全球最強編程模型——構建復雜智能體、操作電腦、推理和數學 , 各項能力都狠狠提升了一波 。
比方說 , 在 OSWorld 這個專門測試真實計算機任務的基準里 , 它拿下了 61.4% 的成績 , 直接第一 。 要知道 , 四個月前 Sonnet 4 還以 42.2% 的成績遙遙領先 , 這才多久性能就又往上抬了一大截 。
而 Anthropic 的 Claude Chrome 插件甚至能直接在瀏覽器里自己導航網站、填表格、處理任務 , 像個真人在操作似的 。 推理、金融這些測評項目上也都更強了 , 各項指標都在往上漲 。
有了這么強的能力 , Anthropic 這次自然不會只發個模型就完事 。
具體來看:
Claude Code加了「檢查點」功能 , 能隨時保存進度 , 想回退到之前某個狀態一鍵搞定 終端界面翻新 , 還發布了原生 VS Code 插件 Claude API 增加了上下文編輯功能和記憶工具 代碼執行和文件創建現在直接整合到對話里甚至 , Anthropic 把自己內部用來搭建 Claude Code 的底層基礎設施也開放出來了 , 叫 Claude Agent SDK 。
智能體怎么在長時間任務里管理記憶、怎么設計權限系統讓自主性和用戶控制找到平衡點、怎么讓多個子智能體配合著完成目標 , 這些都是構建和設計 AI 智能體的棘手問題 。
而借助 Claude Agent SDK , 現在你也能拿去構建自己的產品 。
今天起 , 開發者還可以通過 Claude API 調用 claude-sonnet-4-5 。 定價還是跟 Claude Sonnet 4 一樣 , 每百萬 tokens $3/$15 , 價格沒變能力更強 。
網友 @vasumanmoza 體驗完直接發帖:
「Claude 4.5 Sonnet 剛在一次調用里重構了我整個代碼庫 , 25 次工具調用 , 新增 3000 多行代碼 , 生成了 12 個全新文件 。 它把所有東西都模塊化了 , 拆掉了巨石式結構 , 清理了意大利面條式代碼 。 結果完全跑不通 , 但天啊真的很優雅 。 」這評價 , 屬于又愛又恨那種 。
Cursor 表示 , 在 Claude Sonnet 4.5 上看到了最前沿的編程性能 , 尤其處理長周期任務時提升明顯 。 這也再次說明為什么很多 Cursor 用戶會選 Claude 來解決最復雜的問題 。
知名測評博主 Dan Shipper 則表示 , 新版 Sonnet 4.5 在使用體驗上響應速度更快 , 可控性更強 , 也更穩定 。
性能強是一方面 , 安全性也得跟上 。
據介紹 , Claude Sonnet 4.5 也是 Anthropic 到目前為止對齊度最高的前沿模型 。
靠著 Claude 更強的能力加上完善的安全訓練 , Anthropic 在模型行為上取得了顯著改進 , 減少了阿諛奉承、欺騙、權力追求、鼓勵妄想等行為 。 此外 , Anthropic 在防御提示注入攻擊和減少內容誤判這塊也有了重大突破 。
比較讓我感興趣的是 , Anthropic 還在 Claude Sonnet 4.5 發布的同時推出了個臨時研究預覽功能 , 叫「Imagine with Claude」 。
在這個功能里 , Claude 會實時生成軟件 , 所有功能不是預設的 , 所有代碼也不是提前寫好的 。 你看到的一切都是 Claude 跟你互動時當場創造和調整出來的 。
不過 , 「Imagine with Claude」接下來五天內只會對 Max 訂閱用戶開放 。
附上傳送門 claude.ai/imagine 。
毫無疑問 , 今年的 AI 賽道依舊是卷編程的一年 。
目前 Anthropic 估值已經到了 1830 億美元 , 8 月還實現了年化營收 50 億美元 , 但這其中相當一部分增長靠著來自編程軟件的普及 。 問題是 , 老對手 OpenAI 和 Google Gemini 也在瘋狂推類似工具搶程序員用戶 。
甚至一周之后就是 OpenAI 年度開發者大會 , Anthropic 這個時候搶先發布 Claude Sonnet 4.5 , 時間卡得夠精準 , 明擺著就是要給對手上一波壓力 。
此外 , Anthropic 聯合創始人兼首席科學官 Jared Kaplan 還表示 , 更先進的 Opus 模型 , 預計今年晚些時候推出:「Anthropic 在大小模型的使用上都能占優勢 。 」
不過有一說一 , Anthropic 自己眼下也有麻煩要解決 。
過去兩個月 , Claude 系列模型剛經歷了一場「降智」風波 。 用戶普遍反映模型推理、代碼、格式和工具調用質量斷崖式下滑 , 連付費的 Max 用戶都沒能幸免 。
雖然 Anthropic 后來緊急回滾了 Opus 4.1 更新 , 還承認了兩個獨立 Bug , 聲明「絕非為省成本故意降智」 , 但由于沒提供補償或退款 , GitHub 和 X 等平臺上還是出現了退訂潮 , 不少用戶直接轉投 Codex 。
這次 Claude Sonnet 4.5 的發布 , 顯然就是 Anthropic 想用實打實的性能提升來挽回流失的用戶 。 至于能不能成功 , 就看接下來幾周的實際表現了 。
#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr) , 更多精彩內容第一時間為您奉上 。
愛范兒|原文鏈接· ·新浪微博
推薦閱讀
- 剛剛,奧特曼預言:人類「只剩」最后5年!
- 剛剛,Meta挖走OpenAI清華校友宋飏,任超級智能實驗室研究負責人
- 6.3英寸+7000mAh!剛剛發布的這小屏旗艦,價格真香呀
- 剛剛谷歌發布機器人最新大腦模型!思考能力SOTA,還能跨物種學習
- 剛剛,GPT-5首次通過「哥德爾測試」!破解三大數學猜想
- 剛剛,高通掏出旗艦芯片王炸,小米今晚搶首發,PC芯80TOPS算力飆漲
- 圓桌對話:具身智能,「馬拉松」剛剛開跑|2025年36氪產業未來大會
- 剛剛,OpenAI發布GPT-5-Codex:獨立工作超7小時,還能審查大型項目
- 7500mAh+2億長焦!剛剛官宣的頂級旗艦,堆料太猛了
- 剛剛,這些舊 iPhone 正式下架
