剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們

剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們

文章圖片

剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們

文章圖片

剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們

文章圖片

剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們

文章圖片

剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們

文章圖片

剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們

文章圖片


在 AI 模型的命名玄學里 , 「Instant」和「Lite」這兩個后綴 , 長期以來都帶著一股說不清道不明的廉價感 。
不是沒有原因 。 過去這類模型給人留下的印象 , 基本就是:速度快、腦子慢 , 做做文本總結勉強夠用 , 一旦碰上稍微復雜的推理任務 , 就開始一本正經地胡說八道 。
久而久之 , 輕量模型幾乎成了「將就用」的代名詞 。
就在剛剛 , OpenAI 和 Google 又一次撞車 , 發布了各自的輕量模型 , 并試圖用硬實力來扭轉這個刻板印象 。 省流版如下:
GPT-5.3 Instant: 更具「人味兒」的智能助理 , 大幅降低幻覺率、減少「AI 腔」以及強化細節寫作能力 , 溝通更自然精準 , 適合對內容質量要求高的場景(寫作、專業問答、高風險領域) Gemini 3.1 Flash-Lite:便宜、快、不拖泥帶水 , 還支持「思考等級」調節功能 , 在保持高吞吐量的基礎上兼顧了深層邏輯推理 , 適合大規模、高實時性的批量任務(內容審核、UI 生成、NPC 對話)
GPT-5.3 Instant:終于學會像個正常人一樣聊天了經常用 ChatGPT 的人 , 大概都有過這種無奈:你只是隨口問個小問題 , 它非要先給你端上一段「作為一個人工智能 , 我需要提醒你……」的長篇大論 。
這種總想教人做事的「AI 腔」 , 確實挺招人煩的 。 好在 , OpenAI 這次是真的聽進去了 。
新上線的 GPT-5.3 Instant 花了很大的力氣來解決這個「毛病」 。 它學會了直接給出答案 , 不再啰里啰嗦地鋪墊 。
除了不愛說廢話 , 它也變得更靠譜了 。 舊版本搜完網頁之后 , 容易把一堆鏈接和不相關信息堆到你面前 。
得益于搜索能力的提升 , GPT-5.3 Instant 會主動把網頁內容和自身的背景知識結合起來 , 先想清楚你真正想問什么 , 再給出有重點的回答 , 而不是把搜索引擎的工作原封不動地轉包給你 。
OpenAI 公布的內部評測顯示 , 在聯網狀態下幻覺率降低了 26.8% , 僅靠內部知識時也降低了 19.7% 。 官方特別提到醫療、法律、金融等高風險領域 , 新模型在這些場景下的謹慎程度和準確性都有明顯改善 。
最令人驚喜的 , 其實是它在寫作上的變化 。
【剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們】OpenAI 用一首詩的對比做了說明:同樣寫一個費城郵遞員退休最后一天 , 舊版本傾向于堆砌「把這座城市背在郵袋里」這類抒情句 , 新版本則會寫那根「掉漆的藍色欄桿」、那扇「總有狗在門口等著的柵門」 。 情緒不靠凹 , 就這樣自然而然流露出來 。
語氣上的調整也是此次更新的核心目標之一 。
「停下 。 深呼吸 。 」這類會打斷對話節奏的句式被刻意減少 , 整體風格更直接 , 少了一種不必要的「AI 腔」 。 用戶仍可在設置里自定義回復的溫暖程度與熱情度 , 調出自己習慣的交互風格 。
GPT-5.3 Instant 即日起向所有 ChatGPT 用戶開放 , API 名稱為「gpt-5.3-chat-latest」 。 付費用戶還可以在舊版模型里繼續用 GPT-5.2 Instant , 但它將在今年 6 月 3 日正式退役 。
彩蛋時間

Gemini 3.1 Flash-Lite:便宜、反應快 , 還挺聰明相比于 GPT-5.3 Instant 的好好說話 , Gemini 3.1 Flash-Lite 走的是純粹的務實風 , 目標非常明確:就是要快 , 就是要便宜 。
價格方面 , Gemini 3.1 Flash-Lite 的輸入價格是 0.25 美元每百萬 tokens , 輸出價格是 1.50 美元每百萬 tokens 。
這是什么概念?如果你是一個開發者 , 這意味著你大概花不到 2 塊錢人民幣 , 就能讓 AI 閱讀相當于 5 本《哈利·波特》全集的文字量 。
覺得便宜沒好貨?格局小了 。
根據 Artificial Analysis 的基準測試 ,, 相比上一代的 Gemini 2.5 Flash , 3.1 Flash-Lite 的首字響應時間(TTFT)快了 2.5 倍 , 整體輸出速度提升了 45% 。 對于需要實時響應的產品來說 , 這個延遲差距在用戶體驗上會有肉眼可見的感受 。
這意味著 , 當你還在眨眼的時候 , 它的回答可能已經生成了一半 。 對于那些需要實時反饋的應用——比如即時翻譯、游戲內的 NPC 對話、即時 UI 生成——這種低延遲是決定性的 。
除此之外 , Gemini 3.1 Flash-Lite 還具備「思考」能力 。
在 AI Studio 和 Vertex AI 中 , Google 為這款 Lite 模型配備了「思考等級(Thinking Levels)」的選項 。 開發者可以根據任務的復雜程度 , 自主調節模型「想多深」 。
簡單的高吞吐量任務 , 比如批量內容翻譯和內容審核 , 可以用最輕的配置快速跑完;遇到需要嚴格遵循指令的界面生成或仿真創建任務 , 則可以讓模型多花一點時間推理 , 把結果做扎實 。
這種「既要又要」的能力 , 也因此收獲了相當不錯的成績單 。 在 Arena.ai 的排行榜中 , 它的 Elo 分數達到了 1432 , 在 GPQA Diamond(研究生級別的問答)測試中拿到了 86.9% 的準確率 。
在學術評測 GPQA Diamond 上得分 86.9% , 多模態理解 MMMU Pro 上達到 76.8% 。 這兩個數字不只是「在同檔位里還不錯」 , 而是直接超過了體量更大的 Gemini 2.5 Flash 。
注意 , 這里對比的是 Gemini 2.5 Flash 而非 Gemini 3 Flash , 顯然雞賊的 Google 對這款模型也并未抱有多大的信心 。
目前 , 3.1 Flash-Lite 以預覽版形式通過 Google AI Studio 和 Gemini API 向開發者開放 , 企業用戶可通過 Vertex AI 接入 。 Latitude、Cartwheel、Whering 等早期合作伙伴已在生產環境中完成測試 , 普遍認可它在大規模調用下的穩定性和指令遵循能力 。
把這兩個模型放在一起看 , 你會發現「Instant」和「Lite」 , 或許正在找到自己最合適的位置 。
以最近大火的 OpenClaw 為例 , 其核心場景是幫用戶處理郵件、管理日程 , 本質上是一個需要自主執行任務的 Agent 。
這類產品對模型的要求 , 和普通 chatbot 聊天工具完全不同:它不需要模型表演得多聰明 , 它需要模型說人話、不出錯、還得扛得住高頻調用 。
GPT-5.3 Instant 顯著降低幻覺率 , 意味著 Agent 在自主執行任務時少犯錯;「AI 腔」的消退 , 意味著生成的郵件、文檔讀起來更貼合真人的閱讀習慣 。
Gemini 3.1 Flash-Lite 則更符合最為關鍵的第三個需求 。 Agent 在后臺狂奔時 , 往往需要并行處理海量的子任務 , 對響應速度和 API 成本極度敏感 。
Flash-Lite 極快的響應速度和白菜價的成本 , 加上能靈活調配算力的「思考等級」 , 這種極具彈性的架構對高并發的自動化任務而言 , 無疑是久旱逢甘霖 。
即便兩款模型的長期穩定性仍需觀察 , 但大方向已經很明確:一個負責讓交互更像人 , 一個死磕更快更省錢 。 在未來人手一只「龍蝦」的情況下 , 輕量模型將成為更自然、務實的選擇 。
附上參考地址:
https://openai.com/index/gpt-5-3-instant/
https://gemini.google.com/u/4/app/e0bea96b8f62bd1f
#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr) , 更多精彩內容第一時間為您奉上 。
愛范兒|原文鏈接· ·新浪微博

    推薦閱讀