馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

【馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗】馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

文章圖片

馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗

馬斯克手中的最后一張牌——Grok 4 , 終于打出來了 。 這個全球最聰明AI , 一上線就刷爆全球榜單登頂TOP 1 , 把所有其他大模型都踩在腳下 。 重磅登場的Grok Heavy , 月費則達到了300刀 。 馬斯克已經預言:明年Grok將發現新物理學 。
馬斯克的背水一戰 , 大獲全勝!
在7月10日的發布會上 , xAI的重磅炸彈Grok 4 , 終于在千呼萬喚中登場了 。
而它 , 可以說是全球最聰明的AI!
不僅超越了大多數人類研究生 , 甚至比博士都好 。
發布會全程1個小時 , 下面是太長不看的簡單總結:
現在 , SuperGrok的用戶已經可以用上了 , 普通版月費30刀 , Heavy版月費300刀 。
同時Grok 4 API也已向所有開發者正式開放 , 并將登錄第三方云平臺 。
剛從政壇上鎩羽而歸 , 卻在AI界王者歸來 。
果然 , 馬斯克還是那個傳說中打不敗的男人 。

20萬塊GPU , 成績刷爆HLE在各種考試和基準測試中 , Grok 4的成績驚人 。
比如 , 它在SAT中每次都能拿滿分 , 即使從未見過這些題目 。
而在GRE考試中 , 它在所有學科領域 , 都能拿到近乎滿分 , 無論是人文學科、語言、數學、物理還是工程 。
可以說 , 在所有學科領域 , Grok 4都比幾乎所有人類研究生都要聰明 。
怎么做到的?馬斯克進行了揭秘 。
首先 , 比起Grok 2 , Grok 4的訓練時間達到了Grok 2的100倍 。
從Grok 2到Grok 3 , xAI投入的主要是預訓練算力;但從Grok 3到Grok 4 , 大量算力已經被投入到推理和強化學習中 。
通過訓練Grok 2 , 團隊第一次大規模擴展了預訓練 。
這讓他們意識到:如果對數據消融、基礎設施和算法進行更細致的處理 , 將預訓練的規模可以再提升10倍 , 從而打造出最頂尖的預訓練基礎模型!
網友直呼:xAI在強化學習上投入的算力 , 竟然和預訓練一樣多?這太瘋狂了!
這就是為什么 , xAI要斥巨資建起有10萬塊H100的世界級超算Colossus超算 。
如果能收集可驗證結果的獎勵數據 , 就可以訓練模型從第一性原理出發進行思考、推理、糾正自身錯誤 , 這就是Grok 2推理能力的由來 。
那么 , 接下來 , 如果把Colossus超算的20萬GPU全部都投入 , 會發生什么?
答案就是——Grok 4的誕生!
在 「人類最后考試」HLE上 , Grok 4直接成績刷爆 , 分數驚人 。
HLE總共有2500道問題 , 涵蓋了多個學科 , 今年早些時候剛發布時 , 大多數模型的準確率得分僅為個位數 。
原因就在于 , HLE的考題極難 , 比如下面這些題 , 分別是一道關于范疇論中自然變換的數學題、一道關于電環化反映的有機化學題 , 以及一道從希伯來語原文中區分閉音節和開音節的語言學題 。
顯然 , 這些題目已經達到了博士級 , 甚至更前沿的難度 。
幾乎沒有任何一個人類 , 能答對所有這些問題 , 并且取得高分 。 如果能答對5% , 就算人群中極聰明的人了 。
然而 , Grok 4卻在HLE的所有領域 , 都達到了博士級別 , 甚至勝過了大多數人類博士生 , 因為后者大概率都會不及格 。
當然 , 如果要說Grok 4目前有什么缺憾 , 就是還未發明出新的技術 , 或者發現新的物理學 。
但馬斯克認為 , 這只是時間問題——最早在今年年底 , Grok就會發明出新技術 , 明年它就會發現新的物理學 。

海量算力 , 訓出全球最聰明AI團隊研究者爆料說 , 其實剛開始 , Grok 4的準確率也只是個位數 。
但隨著投入的算力越來越多 , 奇跡發生了!最終 , 它做出了HLE中1/4的難題 , 這還是在沒有工具輔助的情況下 。
而在被賦予工具使用能力 , 將工具使用直接融入訓練過程后 , Grok 4的性能開始了驚人的暴漲 。
而且 , 目前Grok 4還未使用任何公司級的強大工具 。
如果給它提供企業級的工具 , 比如特斯拉或Space X使用的有限元分析、計算流體力學、碰撞模擬 , 以及高精度的物理模擬器 , 那么毫無疑問 , Grok 4還將發生顛覆級的改變!
比如 , 如果把Grok和擎天柱結合 , 它就可以和真實世界互動 , 提出假設 , 親手驗證真偽 。

「重量級」Grok Heavy登場除了算力的問題 , 我們還需要解決的一大難題 , 就是如何突破數據瓶頸 。
RL的原則 , 就是不僅要找到大量有挑戰性的強化學習問題 , 還要有可靠的信號告訴模型 , 它做對了還是做錯了 。
然而 , 如今我們已經快找不到可用的測試題了!大多數人類無法解決的難題 , 對AI已經開始變得輕而易舉 。
好在 , 我們還有一個絕佳的裁判 , 那就是現實 。 物理學是終極法則 , 對AI最終的推理測試 , 就是現實世界 。
讓我們設想一下 , 如果單個AI智能體能解決40%的問題 , 那么同時運行多個智能體呢?
這 , 就是所謂的測試時計算(test-time compute) 。 隨著它的擴展 , Grok 4已經能解決HLE中超50%的純文本題目 。
而如果并行生成多個AI智能體 , Grok 4 Heavy就誕生了!
這些智能體會獨立工作 , 互相比較各自的成果 , 決定哪個更好 。 一旦有智能體發現了關鍵解決方案 , 就會分享給其他智能體 , 最終它們通過交流 , 得出最終答案 。
這就是Grok 4之所以「Heavy」的原因 , 因為測試和計算的規模擴大了一個數量級 。
· Grok 4 Heavy驚人演示
Grok 4 Heavy , 已經進化到可以不止會考試 , 還能解決真實世界中各種刁鉆的問題!
比如 , 我們可以讓它預測當前美國職業棒球大聯盟(MLB)各隊的奪冠賠率 。
它能計算出 , 洛杉磯道奇隊是今年的奪冠熱門 , 獲勝概率為21.6% 。
并且 , 我們還能讓它生成兩個黑洞碰撞的可視化圖像 。
在下圖中可以看到 , 從兩個黑洞相互旋進開始、合并、到達鈴振階段 , 這個碰撞過程大致是正確的 。
尤為精彩的是 , 它使用了后牛頓近似法 , 而非計算黑洞中心附近的廣義相對論效應 。
也就是說 , 它進行了一個真實的模擬 , 對該使用的物理常數進行了相當多的推理 。
另外 , 它還能發現X上頭像最詭異的xAI員工 。
要知道 , 最神奇的地方就在于 , 它竟然理解了什么是「詭異」 。
如果說Grok 4有什么弱點的話 , 就是目前它還是「部分失明」 , 圖像理解能力和生成能力都比較弱 。
不過令人期待的是 , Grok 4是xAI目前訓練的第六版模型 , 第七版已經在訓練中了!
對于所有AGI模型來說 , 最權威的測試就是ARC-AGI了 。
在直播前24小時 , ARC-AGI團隊接到xAI電話后 , 才開始了Grok 4的跑分測試 。
結果顯示 , Grok 4是唯一一個成績突破10%的模型 。
具體來說 , Grok 4(Thinking)在ARC-AGI-2刷新了SOTA , 準確率為15.9% 。
在ARC-AGI-1上 , 它的成績達到了66.7% 。 同時 , Grok 4實現了每美元智能成本的最優化 。

ChatGPT和Grok 4現場飚語音此外 , 研究人員還改進了Grok 4的「語音模式」 , 延遲率直接減半 , 還新增了兩種全新的音色——
Sal:擁有深沉的聲線
Eve:音色優美的英倫女聲 , 能演繹豐富的情感
接下來 , 直接進入demo 。 xAI員工打開Grok問道 , 「現在正在有數百萬人觀看我們直播 , 你感到興奮嗎」?
Eve好像真的就在直播現場 , 激動地表示 , 「這就像站在老維克劇院的舞臺上 , 看著臺下人山人海」 。
它還會低聲細語 , 說了一些能夠讓xAI員工不再緊張的話 。
不僅如此 , Eve現場還獻上了一段非常優美的歌劇 , 還能、即興表演隨時更換曲調 , 讓人聽著陶醉 。
更有趣的是 , 為了測試Grok 4的反應速度 , xAI員工直接讓ChatGPT和Grok同臺PK 。
任務是 , 我說一句 , 你說一句 , 跟讀數字 。
ChatGPT的反應有些遲緩 , 而且并沒有依據指令跟讀 , 自主說一些不相關的話 。
此時 , Grok的表現令人驚艷 , 一步一步跟著讀了下來 。
最后 , 研究人員總結到 , 自Grok模型上線以來 , 在過去八周的時間 , 實現了端到端延遲提速2倍 , 新增了5種不同音色 , 活躍用戶量更是增長了10倍 。
足見 , Grok語音功能正在飛速發展 。

Grok 4賣貨 , 年入47億填補GPU巨銷那么 , Grok 4在現實生活中能做什么?
賺錢?。。 ?
在Vending-Bench商業場景的基準測試中 , Grok 4能夠長期運營自動售貨機 , 并且成為了榜單第一 。
在此過程中 , 它不僅要完成庫存管理 , 還得與供應商談判、制作定價策略等任務 。
這些任務看似簡單 , 但要求模型「長期持續運營」 , 只有Grok 4能夠賺到 , 凈資產也是所有模型兩倍 。
發布會上 , 馬斯克半開玩笑表示 , 「這下我們GPU算力開銷有著落了 。 只需要部署100萬臺自動售貨機 , 年收入就能達47億美元」 。
看來 , 下一步Grok 4也要為自己打工了 。
此外 , Grok 4的誕生 , 將帶來生物醫藥、金融等跨領域的突破 , 重塑商業AI范式 。
如下demo所見 , Grok正成為企業級的智能Copilot , 擁有256k的上下文窗口 , 前沿的多模態推理 , 實時的數據搜索 , 以及企業級的安全能力 。

4小時 , 肝出爆款射擊游戲更令人激動的是 , Grok 4在AI游戲實時生成領域 , 大有前途 。
現場 , 員工展示了AI游戲設計師Danny Limanseta , 在極限4小時內 , 制作出了第一人稱射擊游戲 。
馬斯克預言 , 「首個真正優質的AI電子游戲可能會在明年問世 , 今年或許能看到半小時長度的可觀看AI劇集 , 而首部AI電影很可能在明年誕生」 。
在未來路線圖中 , xAI還計劃發布編碼模型、多模態智能體和視頻生成模型 。
發布會最后 , 屏幕上出現了道格拉斯·亞當斯《銀河系搭車客指南》第四部的書名——《再見 , 謝謝所有的魚》 。
果然 , 還是那個我們熟悉的科幻迷馬斯克 。

文明奇點已至馬斯克激動表示 , 我們正處于智能大爆炸的起點 。 奇點時刻已經到來 , 這是人類歷史上最激動人心的時代 。
而此時最重要的 , 就是打造一個好的AI , 一個善良的AI , 讓它去最大程度地追求真理 。
如果把AI看作一個超級天才的孩子 , 它最終一定會比人類聰明 , 而我們能做的 , 就是開始就給它灌輸正確的價值觀 , 讓它追求真實、正直、善良 。
給AI算力 , 加上正確的工具 , 最終還要和物理世界互動 , 到時 , 我們的經濟體量將會是現在的數千倍 , 甚至數百萬倍!
馬斯克說 , 如果把文明進程看作是完成卡爾達肖夫等級的百分比 , 那我們距離1級文明的10%還很遠 , 可能只完成了1%或2% 。
1級文明利用整個行星的能源;2級文明利用整個恒星的能源;3級文明利用整個星系的能源
如果文明沒有自我毀滅 , 我們就會邁向2級文明 。 跟那時相比 , 我們今天的經濟水平 , 會像穴居人往火里扔木棍一樣原始 。
馬斯克承認 , 親手創造出這樣一個遠超人類自身的智能 , 也令人有些不安——它對人類究竟是好是壞?
最終 , 他說服了自己:這個AI大概率是好的 , 就算不是 , 自己也要活到親眼見證這一切發生的那一天 。

馬斯克 , 背水一戰如今 , 馬斯克真的是破釜沉舟 , 背水一戰了 。
本來是特朗普競選的最大功臣 , 最近他卻成了「大而美法案」的最大輸家 , 隨著「特馬同盟」的徹底崩塌 , 馬斯克似乎已經無牌可出了 。
首先 , 隨著「大而美法案」的出臺 , 7500美元的電動汽車購車稅收抵免 , 已經提前至2025年9月30日終止 , 從此 , 特斯拉每年的利潤損失將高達17億美元 。
而DOGE前期的努力 , 也隨著大而美法案中的大規模赤字擴張而付諸東流 。
政壇的失意 , 讓馬斯克全美業務的關鍵布局 , 包括電動汽車、Space X、腦機接口、加密貨幣等 , 商業利益全面被連累 。
在這種背景下誕生的Grok 4 , 可以說是馬斯克最后的希望 。
終于 , 這次發布會上他用Grok 4告訴全世界:我手里還有最后一張牌 。
Grok團隊中 , 華人學者占據半壁江山
參考資料:
https://x.com/i/events/1942716886258528256

    推薦閱讀