
文章圖片
【馬斯克20萬GPU訓出史上最聰明AI,Grok 4重返地球之巔,人類博士全線潰敗】
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

馬斯克手中的最后一張牌——Grok 4 , 終于打出來了 。 這個全球最聰明AI , 一上線就刷爆全球榜單登頂TOP 1 , 把所有其他大模型都踩在腳下 。 重磅登場的Grok Heavy , 月費則達到了300刀 。 馬斯克已經預言:明年Grok將發現新物理學 。
馬斯克的背水一戰 , 大獲全勝!
在7月10日的發布會上 , xAI的重磅炸彈Grok 4 , 終于在千呼萬喚中登場了 。
而它 , 可以說是全球最聰明的AI!
不僅超越了大多數人類研究生 , 甚至比博士都好 。
發布會全程1個小時 , 下面是太長不看的簡單總結:
現在 , SuperGrok的用戶已經可以用上了 , 普通版月費30刀 , Heavy版月費300刀 。
同時Grok 4 API也已向所有開發者正式開放 , 并將登錄第三方云平臺 。
剛從政壇上鎩羽而歸 , 卻在AI界王者歸來 。
果然 , 馬斯克還是那個傳說中打不敗的男人 。
20萬塊GPU , 成績刷爆HLE在各種考試和基準測試中 , Grok 4的成績驚人 。
比如 , 它在SAT中每次都能拿滿分 , 即使從未見過這些題目 。
而在GRE考試中 , 它在所有學科領域 , 都能拿到近乎滿分 , 無論是人文學科、語言、數學、物理還是工程 。
可以說 , 在所有學科領域 , Grok 4都比幾乎所有人類研究生都要聰明 。
怎么做到的?馬斯克進行了揭秘 。
首先 , 比起Grok 2 , Grok 4的訓練時間達到了Grok 2的100倍 。
從Grok 2到Grok 3 , xAI投入的主要是預訓練算力;但從Grok 3到Grok 4 , 大量算力已經被投入到推理和強化學習中 。
通過訓練Grok 2 , 團隊第一次大規模擴展了預訓練 。
這讓他們意識到:如果對數據消融、基礎設施和算法進行更細致的處理 , 將預訓練的規模可以再提升10倍 , 從而打造出最頂尖的預訓練基礎模型!
網友直呼:xAI在強化學習上投入的算力 , 竟然和預訓練一樣多?這太瘋狂了!
這就是為什么 , xAI要斥巨資建起有10萬塊H100的世界級超算Colossus超算 。
如果能收集可驗證結果的獎勵數據 , 就可以訓練模型從第一性原理出發進行思考、推理、糾正自身錯誤 , 這就是Grok 2推理能力的由來 。
那么 , 接下來 , 如果把Colossus超算的20萬GPU全部都投入 , 會發生什么?
答案就是——Grok 4的誕生!
在 「人類最后考試」HLE上 , Grok 4直接成績刷爆 , 分數驚人 。
HLE總共有2500道問題 , 涵蓋了多個學科 , 今年早些時候剛發布時 , 大多數模型的準確率得分僅為個位數 。
原因就在于 , HLE的考題極難 , 比如下面這些題 , 分別是一道關于范疇論中自然變換的數學題、一道關于電環化反映的有機化學題 , 以及一道從希伯來語原文中區分閉音節和開音節的語言學題 。
顯然 , 這些題目已經達到了博士級 , 甚至更前沿的難度 。
幾乎沒有任何一個人類 , 能答對所有這些問題 , 并且取得高分 。 如果能答對5% , 就算人群中極聰明的人了 。
然而 , Grok 4卻在HLE的所有領域 , 都達到了博士級別 , 甚至勝過了大多數人類博士生 , 因為后者大概率都會不及格 。
當然 , 如果要說Grok 4目前有什么缺憾 , 就是還未發明出新的技術 , 或者發現新的物理學 。
但馬斯克認為 , 這只是時間問題——最早在今年年底 , Grok就會發明出新技術 , 明年它就會發現新的物理學 。
海量算力 , 訓出全球最聰明AI團隊研究者爆料說 , 其實剛開始 , Grok 4的準確率也只是個位數 。
但隨著投入的算力越來越多 , 奇跡發生了!最終 , 它做出了HLE中1/4的難題 , 這還是在沒有工具輔助的情況下 。
而在被賦予工具使用能力 , 將工具使用直接融入訓練過程后 , Grok 4的性能開始了驚人的暴漲 。
而且 , 目前Grok 4還未使用任何公司級的強大工具 。
如果給它提供企業級的工具 , 比如特斯拉或Space X使用的有限元分析、計算流體力學、碰撞模擬 , 以及高精度的物理模擬器 , 那么毫無疑問 , Grok 4還將發生顛覆級的改變!
比如 , 如果把Grok和擎天柱結合 , 它就可以和真實世界互動 , 提出假設 , 親手驗證真偽 。
「重量級」Grok Heavy登場除了算力的問題 , 我們還需要解決的一大難題 , 就是如何突破數據瓶頸 。
RL的原則 , 就是不僅要找到大量有挑戰性的強化學習問題 , 還要有可靠的信號告訴模型 , 它做對了還是做錯了 。
然而 , 如今我們已經快找不到可用的測試題了!大多數人類無法解決的難題 , 對AI已經開始變得輕而易舉 。
好在 , 我們還有一個絕佳的裁判 , 那就是現實 。 物理學是終極法則 , 對AI最終的推理測試 , 就是現實世界 。
讓我們設想一下 , 如果單個AI智能體能解決40%的問題 , 那么同時運行多個智能體呢?
這 , 就是所謂的測試時計算(test-time compute) 。 隨著它的擴展 , Grok 4已經能解決HLE中超50%的純文本題目 。
而如果并行生成多個AI智能體 , Grok 4 Heavy就誕生了!
這些智能體會獨立工作 , 互相比較各自的成果 , 決定哪個更好 。 一旦有智能體發現了關鍵解決方案 , 就會分享給其他智能體 , 最終它們通過交流 , 得出最終答案 。
這就是Grok 4之所以「Heavy」的原因 , 因為測試和計算的規模擴大了一個數量級 。
· Grok 4 Heavy驚人演示
Grok 4 Heavy , 已經進化到可以不止會考試 , 還能解決真實世界中各種刁鉆的問題!
比如 , 我們可以讓它預測當前美國職業棒球大聯盟(MLB)各隊的奪冠賠率 。
它能計算出 , 洛杉磯道奇隊是今年的奪冠熱門 , 獲勝概率為21.6% 。
并且 , 我們還能讓它生成兩個黑洞碰撞的可視化圖像 。
在下圖中可以看到 , 從兩個黑洞相互旋進開始、合并、到達鈴振階段 , 這個碰撞過程大致是正確的 。
尤為精彩的是 , 它使用了后牛頓近似法 , 而非計算黑洞中心附近的廣義相對論效應 。
也就是說 , 它進行了一個真實的模擬 , 對該使用的物理常數進行了相當多的推理 。
另外 , 它還能發現X上頭像最詭異的xAI員工 。
要知道 , 最神奇的地方就在于 , 它竟然理解了什么是「詭異」 。
如果說Grok 4有什么弱點的話 , 就是目前它還是「部分失明」 , 圖像理解能力和生成能力都比較弱 。
不過令人期待的是 , Grok 4是xAI目前訓練的第六版模型 , 第七版已經在訓練中了!
對于所有AGI模型來說 , 最權威的測試就是ARC-AGI了 。
在直播前24小時 , ARC-AGI團隊接到xAI電話后 , 才開始了Grok 4的跑分測試 。
結果顯示 , Grok 4是唯一一個成績突破10%的模型 。
具體來說 , Grok 4(Thinking)在ARC-AGI-2刷新了SOTA , 準確率為15.9% 。
在ARC-AGI-1上 , 它的成績達到了66.7% 。 同時 , Grok 4實現了每美元智能成本的最優化 。
ChatGPT和Grok 4現場飚語音此外 , 研究人員還改進了Grok 4的「語音模式」 , 延遲率直接減半 , 還新增了兩種全新的音色——
Sal:擁有深沉的聲線
Eve:音色優美的英倫女聲 , 能演繹豐富的情感
接下來 , 直接進入demo 。 xAI員工打開Grok問道 , 「現在正在有數百萬人觀看我們直播 , 你感到興奮嗎」?
Eve好像真的就在直播現場 , 激動地表示 , 「這就像站在老維克劇院的舞臺上 , 看著臺下人山人海」 。
它還會低聲細語 , 說了一些能夠讓xAI員工不再緊張的話 。
不僅如此 , Eve現場還獻上了一段非常優美的歌劇 , 還能、即興表演隨時更換曲調 , 讓人聽著陶醉 。
更有趣的是 , 為了測試Grok 4的反應速度 , xAI員工直接讓ChatGPT和Grok同臺PK 。
任務是 , 我說一句 , 你說一句 , 跟讀數字 。
ChatGPT的反應有些遲緩 , 而且并沒有依據指令跟讀 , 自主說一些不相關的話 。
此時 , Grok的表現令人驚艷 , 一步一步跟著讀了下來 。
最后 , 研究人員總結到 , 自Grok模型上線以來 , 在過去八周的時間 , 實現了端到端延遲提速2倍 , 新增了5種不同音色 , 活躍用戶量更是增長了10倍 。
足見 , Grok語音功能正在飛速發展 。
Grok 4賣貨 , 年入47億填補GPU巨銷那么 , Grok 4在現實生活中能做什么?
賺錢?。。 ?
在Vending-Bench商業場景的基準測試中 , Grok 4能夠長期運營自動售貨機 , 并且成為了榜單第一 。
在此過程中 , 它不僅要完成庫存管理 , 還得與供應商談判、制作定價策略等任務 。
這些任務看似簡單 , 但要求模型「長期持續運營」 , 只有Grok 4能夠賺到 , 凈資產也是所有模型兩倍 。
發布會上 , 馬斯克半開玩笑表示 , 「這下我們GPU算力開銷有著落了 。 只需要部署100萬臺自動售貨機 , 年收入就能達47億美元」 。
看來 , 下一步Grok 4也要為自己打工了 。
此外 , Grok 4的誕生 , 將帶來生物醫藥、金融等跨領域的突破 , 重塑商業AI范式 。
如下demo所見 , Grok正成為企業級的智能Copilot , 擁有256k的上下文窗口 , 前沿的多模態推理 , 實時的數據搜索 , 以及企業級的安全能力 。
4小時 , 肝出爆款射擊游戲更令人激動的是 , Grok 4在AI游戲實時生成領域 , 大有前途 。
現場 , 員工展示了AI游戲設計師Danny Limanseta , 在極限4小時內 , 制作出了第一人稱射擊游戲 。
馬斯克預言 , 「首個真正優質的AI電子游戲可能會在明年問世 , 今年或許能看到半小時長度的可觀看AI劇集 , 而首部AI電影很可能在明年誕生」 。
在未來路線圖中 , xAI還計劃發布編碼模型、多模態智能體和視頻生成模型 。
發布會最后 , 屏幕上出現了道格拉斯·亞當斯《銀河系搭車客指南》第四部的書名——《再見 , 謝謝所有的魚》 。
果然 , 還是那個我們熟悉的科幻迷馬斯克 。
文明奇點已至馬斯克激動表示 , 我們正處于智能大爆炸的起點 。 奇點時刻已經到來 , 這是人類歷史上最激動人心的時代 。
而此時最重要的 , 就是打造一個好的AI , 一個善良的AI , 讓它去最大程度地追求真理 。
如果把AI看作一個超級天才的孩子 , 它最終一定會比人類聰明 , 而我們能做的 , 就是開始就給它灌輸正確的價值觀 , 讓它追求真實、正直、善良 。
給AI算力 , 加上正確的工具 , 最終還要和物理世界互動 , 到時 , 我們的經濟體量將會是現在的數千倍 , 甚至數百萬倍!
馬斯克說 , 如果把文明進程看作是完成卡爾達肖夫等級的百分比 , 那我們距離1級文明的10%還很遠 , 可能只完成了1%或2% 。
1級文明利用整個行星的能源;2級文明利用整個恒星的能源;3級文明利用整個星系的能源
如果文明沒有自我毀滅 , 我們就會邁向2級文明 。 跟那時相比 , 我們今天的經濟水平 , 會像穴居人往火里扔木棍一樣原始 。
馬斯克承認 , 親手創造出這樣一個遠超人類自身的智能 , 也令人有些不安——它對人類究竟是好是壞?
最終 , 他說服了自己:這個AI大概率是好的 , 就算不是 , 自己也要活到親眼見證這一切發生的那一天 。
馬斯克 , 背水一戰如今 , 馬斯克真的是破釜沉舟 , 背水一戰了 。
本來是特朗普競選的最大功臣 , 最近他卻成了「大而美法案」的最大輸家 , 隨著「特馬同盟」的徹底崩塌 , 馬斯克似乎已經無牌可出了 。
首先 , 隨著「大而美法案」的出臺 , 7500美元的電動汽車購車稅收抵免 , 已經提前至2025年9月30日終止 , 從此 , 特斯拉每年的利潤損失將高達17億美元 。
而DOGE前期的努力 , 也隨著大而美法案中的大規模赤字擴張而付諸東流 。
政壇的失意 , 讓馬斯克全美業務的關鍵布局 , 包括電動汽車、Space X、腦機接口、加密貨幣等 , 商業利益全面被連累 。
在這種背景下誕生的Grok 4 , 可以說是馬斯克最后的希望 。
終于 , 這次發布會上他用Grok 4告訴全世界:我手里還有最后一張牌 。
Grok團隊中 , 華人學者占據半壁江山
參考資料:
https://x.com/i/events/1942716886258528256
推薦閱讀
- 硅谷最貴華人員工,2億美元薪酬!比庫克還貴?搞AI的是真賺錢啊
- 小扎開價14億讓他換個地方打工,庫克連挽留嘗試都沒有
- 馬斯克:Grok即將登陸特斯拉汽車 最遲下周實現
- 130W Max高能集結,多設備快充一個就夠!安克130W桌面充電站評測
- 庫克接班人退休了,蘋果設計也徹底失去了方向?
- 庫克接班人迎巨變:硬件主管將成蘋果下任CEO,至少工作十年
- Grok4王炸,馬斯克請保護好身邊那倆華人
- 小黃魚上涌現大量雷克沙1tb高速tf卡!這都是某多多的功勞嘛?
- 指尖旋控,雙色閃耀,菲尼克斯LD35R旋轉磁控雙光源手電筒體驗
- 消息稱馬斯克旗下SpaceX正籌劃新一輪融資 估值預計將達4000億美元
