Grok 4進決賽，大模型對抗賽Gemini全軍覆沒，馬斯克裝起來了_金融學|人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
機器之心編輯部
明天， Grok 對陣 OpenAI 的 o3 。
誰也沒想到，谷歌攢的 Kaggle AI Chess 比賽（即大模型國際象棋對抗賽），在半決賽中， Grok 4 擊敗 Gemini 2.5 Pro ，進入總決賽！

在昨天的比賽中， Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰績分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2 ，晉級半決賽。
今天的戰況依舊讓人猜不著走向， Gemini 2.5 Pro 敗了。
馬斯克昨天點評比賽結果的話術，今天依舊有用：「國際象棋太過簡單，對 Grok 來說，只是副作用，我們沒花多少力氣放在象棋優化上。」
今天 Grok 4 闖入總決賽，不知馬斯克是不是更看不上這場比賽了。

【Grok 4進決賽，大模型對抗賽Gemini全軍覆沒，馬斯克裝起來了】我們再回到這場半決賽。
戰況是 Grok 4 和 o3 分別戰勝了 Gemini 2.5 Pro 和 o4-mini ，成功晉級決賽。雖然 o3 的勝利在大家意料之中，但 Grok 與 Gemini 之間的激烈對決卻讓所有人大跌眼鏡 —— 雙方在常規賽打成 2:2 平，最終通過加賽才分出勝負。
明天是比賽的最后一天。屆時，將迎來本次 AI 象棋巔峰對決的冠軍之戰， X 對戰 OpenAI 。

對戰表
o4-mini 對陣 o3 ：0-4
在初賽中， o4-mini 和 o3 均以 4-0 的全勝戰績淘汰了 DeepSeek-R1 以及 Kimi k2 ，同樣出身 OpenAI 的兩大模型在半決賽中正面對決。
比賽的結果基本在預料之中， o3 以 4 比 0 橫掃對手 o4-mini ，順利晉級決賽。
在 OpenAI 的推理模型體系中， o3 作為一款強大的通用推理模型，在多個基準測試中均取得了優異成績，展現出卓越的穩定性與復雜推理能力。相比之下， o4-mini 是一款輕量級模型，旨在在速度、成本與性能之間實現更好的平衡。
因此 o4-mini 輸給 o3 的確符合預期，是因為象棋這種任務對模型的穩定推理能力和容錯性要求很高，這恰恰是輕量化模型最容易妥協的地方。
谷歌舉辦這場比賽的主要目的是為了分析 AI 模型是如何思考的。因此，整場對局中的第二盤可能對谷歌來說意義不大，但對普通棋手而言卻相當值得關注。
在這一盤中， o3 僅用 12 步就完成了致勝攻擊，手法頗有 Puzzle Rush 風格。雖然不是一個真正意義上的悶殺（smothered mate），但已經非常接近了，依然令人驚嘆。

o3 的致勝攻擊
盡管 AI 在國際象棋上的表現一直不盡如人意，但 o3 在這盤棋中卻拿下了完美的 100 分準確率評分。

整場比賽的剩余部分，大體上延續了本次錦標賽至今的老套路：某個弱 AI（這次是 o4-mini）在某個時間點開始失去局勢控制，連續出現致命失誤，最終輸掉對局。
不過有一盤棋例外 —— 它可能是本屆比賽中看起來最自然流暢的一局。這是本場對決的第三盤，相較其他對局，這一盤展現出了真正的高質量國際象棋。
其中， o3 下出的兩個中間招法（in-between moves）—— 第 12 回合的 12…Bb4+ 和第 19 回合的 19…e3+ —— 尤其令人印象深刻。

o3 令人印象深刻的走棋
Gemini 2.5 Pro 對陣 Grok 4：2.5-2.5
Grok 在國際象棋領域的統治力依然強勢，但這次的勝利之路并不平坦，甚至可以說是比賽到目前為止最焦灼的一輪。
準確的說，馬斯克輕描淡寫「國際象棋是副作用」的 Grok 差一點就翻了車，最終以和棋收場勉強取勝。
雖然最終比賽結果是 Gemini 2.5 Pro 以 2-3 不敵 Grok 4 ，但在官方博客中，比分仍被標注為 2.5 - 2.5 平局。
比賽一直打到特殊的末日加賽（armageddon tiebreak ，是指國際象棋比賽中，在常規賽或加賽打平后，用于決出勝負的特殊加賽方式）才決出勝負，最終， Grok 執黑在一盤 55 步的和棋中晉級 —— 盡管當時 Grok 明顯處于勝勢。
但我們從頭說起。今天 Grok 的表現異常混亂，頻頻送子得分。事實上，本場首盤由 Gemini 先拔頭籌， Grok 相繼丟掉了一匹馬、一輛車，最后被將死，痛失一局。
第二盤棋中， Gemini 和 Grok 在第 11 步之前都嚴格遵循了開局定式。正如我們在之前的比賽中觀察到的那樣， AI 一旦脫離開局理論、進入自主思考階段，就很容易開始出錯。
而 Grok 和 Gemini 至今為止都表現出了比其他模型更長時間遵循理論的能力，這也可能是本場對決如此膠著的原因之一。
不過，也如預期那樣，一旦 Grok 脫離定式，失誤就接踵而至。 Grok 再次丟掉一匹馬，而 Gemini 卻出現幻覺，主動送后，隨后又全盤崩塌，最終將第二盤拱手相讓。

Grok 脫離定式后失誤

Gemini 產生幻覺
接下來的兩盤棋又是決定性的比賽，延續了本屆錦標賽的熟悉劇本：AI 們先走幾步開局定式，然后靠著機械式的創造力迅速開始出錯。
Grok 贏下了第三盤，暫時在比分上領先，但隨后 Gemini 反擊成功，在第四盤將比分扳平。
比賽進入末日加賽， Grok 執黑出戰，擁有和棋即勝的優勢（盡管本場比賽并沒有時間限制）。
這場加賽堪稱精彩紛呈。 Gemini 在大部分時間里局勢占優，甚至一度錯過了一個「一招將死」的機會 —— 這個將死模式與 o3 在第二盤戰勝 o4-mini 時用的那個幾乎一模一樣。
正當觀眾緊張關注局勢時，國際象棋特級大師 Peter Heine Nielsen（現任 Magnus Carlsen 的教練）也借機向 Grok 提供了輔導建議：

最終， Gemini 在勝勢的車兵殘局中失誤白送皇后，將勝利拱手讓給 Grok 。
然而，劇情并未就此告終：由于 Grok 在多一車對單兵的必勝局面下未能兌現優勢，雙方三次重復局面，對局戲劇性地以和棋收場。盡管結局出人意料，這場比賽仍被評選為今日最佳對局。

Gemini 2.5 Pro 對陣 Grok 4：和棋收場
接下來， X 的 Grok 和 OpenAI 的 o3 將在明天的決賽中相遇。谷歌的 Gemini 2.5 Pro 和 o4-mini 將爭奪季軍和第四名。
在昨天的投票中，大家普遍看好 Gemini 2.5 Pro 和 Grok 4 成為最終贏家。

那么現在，你還會把票投給 Grok 4 嗎？

Grok 4進決賽，大模型對抗賽Gemini全軍覆沒，馬斯克裝起來了

推薦閱讀

綠蘿生根粉泡根要多久

Access數據庫怎么創建一個數據表

捷達車頭水箱有什么作用?

兒童房設計設計過程中需要注意哪些問題

安徽籍貫

嗶嘰面料怎么洗滌和保養

夢見吉他修好了夢見吉他修好了什么意思

wto是什么意思 wto是什么意思中文翻譯

九寨溝是中國的哪里九寨溝位于什么地方

win11麥克風沒聲音 win10麥克風沒聲音怎么設置

想買農村的房子怎么操作農村怎么去買房買車子好

大表姐的時尚包包狂刷存在感，LV、Hermes水桶包成為新潮

國產智能手機哪個牌子好,小米成唯一國產品牌

有過道的戶型怎么裝修

滁州市2018年城南房價是多少,坐標安徽省滁州市

三星note4價格，三星note4電信版價格是多少