馬斯克Grok4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%

馬斯克Grok4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%

文章圖片

馬斯克Grok4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%

文章圖片

馬斯克Grok4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%

文章圖片

馬斯克Grok4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%

文章圖片

馬斯克Grok4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%

文章圖片

馬斯克Grok4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%

文章圖片

馬斯克Grok4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%

文章圖片

馬斯克Grok4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%

文章圖片

馬斯克Grok4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%

文章圖片

馬斯克Grok4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%

文章圖片

Grok 4 Fast官宣上線 , 馬斯克再次兌現了承諾!
它首次將推理/非推理「雙模式」合一 , 支持200萬上下文 , 直接刷爆性價比SOTA 。

推理測試中 , Grok 4 Fast直接碾壓前代Grok 3 Mini , 尤其是數學、編碼性能大增 。

基準測試顯示 , Grok 4 Fast Reasoning登頂了擴展版NYT Connections Benchmark(紐約時報連線謎題基準測試 , 共759道題) 。
Grok 4則排名第2 , xAI在這個項目上展現了絕對的統治力 。
對此 , 馬斯克自豪地表示 , 這就是進展!

Grok 4 Fast Reasoning不僅擊敗了自家大哥Grok 4 , 也將GPT-5、o3-pro、Gemini 2.5 Pro、DeepSeek和Qwen 3等一眾模型斬于馬下 。
Grok 4發布之后 , 基本上xAI一月一迭代 , 速度堪稱驚人 。
【馬斯克Grok4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%】


25/1成本 , 堪比Gemini 2.5 Pro


技術博客中 , 介紹了Grok 4 Fast所具備的四大核心優勢:

  • 行業SOTA級性價比
  • 最強網頁與X平臺搜索能力
  • 支持200萬token的超長上下文
  • 創新統一架構:單模型融合推理與非推理雙模式
基于大規模RL技術 , xAI團隊將Grok 4 Fast智能密度推向了極致 。
實測表明 , 新模型性能直逼Grok 4 , 但平均節省了40%推理token的消耗 , 成本直降98% 。

Grok 4 Fast不僅在NYT Connections Benchmark上表現出色 , 在著名的Artificial Analysis Intelligence Index(AA智能指數)上同樣表現不俗 。
它以大約25分之一的成本就實現了Gemini 2.5 Pro級別的智能!
Grok 4 Fast是一個將reasoning和non-reasoning融合統一的模型 。

在推理模式下 , Grok 4 Fast Reasoning在AA智能指數上取得了60分的亮眼成績 , 與Gemini 2.5 Pro和Claude 4.1 Opus相當 。
低于此前發布的Grok 4和GPT-5(high) 。

在編碼評測中 , Grok 4 Fast表現尤為出色 , 在他們的LiveCodeBench榜單上登頂第一 , 甚至超越其體量更大的自家大哥Grok 4 。
成本方面Grok 4 Fast也挺有優勢:輸入0.2美元每百萬Tokens , 輸出0.5美元每百萬Tokens 。 而且輸出效率很高 。

Artificial Analysis在對Grok 4 Fast的預發布API進行基準測試時 , 發現它的速度驚人非常迅速 , 達到了每秒344個輸出Token——約為 OpenAI GPT-5 API的2.5倍 。 端到端時延僅3.8秒 , 是目前最快的前沿模型 。


Grok 4 Fast的發布延續了這個趨勢:獲取AI智能的成本正在快速下降 。
在過去一年半里 , 獲取GPT-4級別智能的成本已下降約500倍;而且隨著智能前沿不斷被推進 , 獲取成本仍在持續走低 。

原生工具調用


通過端到端工具使用RL訓練 , Grok 4 Fast特別擅長智能判斷 , 何時調用代碼執行、網頁瀏覽等工具 。
舉個栗子 , 在搜索時 , 它可以像人類一樣流暢地瀏覽網頁和X平臺 , 并用實時數據增強查詢結果——
自動跳轉鏈接、解析X上圖文視頻內容 , 并以閃電速度整合信息得出結論 。
可以看出 , Grok 4 Fast基準測試中 , 工具調用、深度研究等能力上完勝Grok 4 。

現在 , 通過API即可調用推理/非推理Grok 4 Fast , 每100萬token價格再創新低 。






什么是NYT Connections Benchmark?


NYT Connections Benchmark(紐約時報連線謎題基準測試)的核心源于《紐約時報》推出的益智游戲「Connections」 , 后被轉化為評估大語言模型「語義關聯與分類推理能力」的重要基準 。

地址:https://github.com/lechmazur/nyt-connections/
其核心邏輯與原始游戲一致:給定16個看似無關聯的詞語 , AI需從語義、邏輯或常識維度 , 將它們精準劃分成4組(每組4個詞) , 且每組需符合一個明確的「潛在關聯主題」(例如不同類型的水果、計算機硬件部件、經典文學角色等) 。

而此次Grok 4 Fast參加的「擴展版」在基礎規則上進一步提升難度——每個謎題額外增加多達4個「技巧詞」(即易混淆、可能同時貼合多個主題的干擾詞) , 更考驗AI排除干擾、精準捕捉深層語義關聯的能力 。
舉兩個栗子 。 大家感受一下難度 。


在擴展版上模型的排名如下圖 , xAI一家占據前兩名 。

為排除LLM的訓練數據中包含答案的可能性 , 基準方還僅對最新增加的100道謎題進行了測試 。
結果依然是xAI家的Grok 4、Grok 4 Fast Reasoning排名前兩位 , 只不過這次大哥終于排第一了 。

看來Grok 4 Fast Reasoning在智能上確實有兩下子 , 結合其速度快、價格低的優勢 , 很有可能成為開發者的新寵 。

    推薦閱讀