Grok 4進決賽,大模型對抗賽Gemini全軍覆沒,馬斯克裝起來了

Grok 4進決賽,大模型對抗賽Gemini全軍覆沒,馬斯克裝起來了

文章圖片

Grok 4進決賽,大模型對抗賽Gemini全軍覆沒,馬斯克裝起來了

文章圖片

Grok 4進決賽,大模型對抗賽Gemini全軍覆沒,馬斯克裝起來了

文章圖片

Grok 4進決賽,大模型對抗賽Gemini全軍覆沒,馬斯克裝起來了

文章圖片

Grok 4進決賽,大模型對抗賽Gemini全軍覆沒,馬斯克裝起來了

文章圖片

Grok 4進決賽,大模型對抗賽Gemini全軍覆沒,馬斯克裝起來了

機器之心報道
機器之心編輯部
明天 , Grok 對陣 OpenAI 的 o3 。
誰也沒想到 , 谷歌攢的 Kaggle AI Chess 比賽(即大模型國際象棋對抗賽) , 在半決賽中 , Grok 4 擊敗 Gemini 2.5 Pro , 進入總決賽!

在昨天的比賽中 , Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰績分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2 , 晉級半決賽 。
今天的戰況依舊讓人猜不著走向 , Gemini 2.5 Pro 敗了 。
馬斯克昨天點評比賽結果的話術 , 今天依舊有用:「國際象棋太過簡單 , 對 Grok 來說 , 只是副作用 , 我們沒花多少力氣放在象棋優化上 。 」
今天 Grok 4 闖入總決賽 , 不知馬斯克是不是更看不上這場比賽了 。

【Grok 4進決賽,大模型對抗賽Gemini全軍覆沒,馬斯克裝起來了】我們再回到這場半決賽 。
戰況是 Grok 4 和 o3 分別戰勝了 Gemini 2.5 Pro 和 o4-mini , 成功晉級決賽 。 雖然 o3 的勝利在大家意料之中 , 但 Grok 與 Gemini 之間的激烈對決卻讓所有人大跌眼鏡 —— 雙方在常規賽打成 2:2 平 , 最終通過加賽才分出勝負 。
明天是比賽的最后一天 。 屆時 , 將迎來本次 AI 象棋巔峰對決的冠軍之戰 , X 對戰 OpenAI 。

對戰表
o4-mini 對陣 o3 :0-4
在初賽中 , o4-mini 和 o3 均以 4-0 的全勝戰績淘汰了 DeepSeek-R1 以及 Kimi k2 , 同樣出身 OpenAI 的兩大模型在半決賽中正面對決 。
比賽的結果基本在預料之中 , o3 以 4 比 0 橫掃對手 o4-mini , 順利晉級決賽 。
在 OpenAI 的推理模型體系中 , o3 作為一款強大的通用推理模型 , 在多個基準測試中均取得了優異成績 , 展現出卓越的穩定性與復雜推理能力 。 相比之下 , o4-mini 是一款輕量級模型 , 旨在在速度、成本與性能之間實現更好的平衡 。
因此 o4-mini 輸給 o3 的確符合預期 , 是因為象棋這種任務對模型的穩定推理能力和容錯性要求很高 , 這恰恰是輕量化模型最容易妥協的地方 。
谷歌舉辦這場比賽的主要目的是為了分析 AI 模型是如何思考的 。 因此 , 整場對局中的第二盤可能對谷歌來說意義不大 , 但對普通棋手而言卻相當值得關注 。
在這一盤中 , o3 僅用 12 步就完成了致勝攻擊 , 手法頗有 Puzzle Rush 風格 。 雖然不是一個真正意義上的悶殺(smothered mate) , 但已經非常接近了 , 依然令人驚嘆 。

o3 的致勝攻擊
盡管 AI 在國際象棋上的表現一直不盡如人意 , 但 o3 在這盤棋中卻拿下了完美的 100 分準確率評分 。

整場比賽的剩余部分 , 大體上延續了本次錦標賽至今的老套路:某個弱 AI(這次是 o4-mini)在某個時間點開始失去局勢控制 , 連續出現致命失誤 , 最終輸掉對局 。
不過有一盤棋例外 —— 它可能是本屆比賽中看起來最自然流暢的一局 。 這是本場對決的第三盤 , 相較其他對局 , 這一盤展現出了真正的高質量國際象棋 。
其中 , o3 下出的兩個中間招法(in-between moves)—— 第 12 回合的 12…Bb4+ 和第 19 回合的 19…e3+ —— 尤其令人印象深刻 。

o3 令人印象深刻的走棋
Gemini 2.5 Pro 對陣 Grok 4:2.5-2.5
Grok 在國際象棋領域的統治力依然強勢 , 但這次的勝利之路并不平坦 , 甚至可以說是比賽到目前為止最焦灼的一輪 。
準確的說 , 馬斯克輕描淡寫「國際象棋是副作用」的 Grok 差一點就翻了車 , 最終以和棋收場勉強取勝 。
雖然最終比賽結果是 Gemini 2.5 Pro 以 2-3 不敵 Grok 4 , 但在官方博客中 , 比分仍被標注為 2.5 - 2.5 平局 。
比賽一直打到特殊的末日加賽(armageddon tiebreak , 是指國際象棋比賽中 , 在常規賽或加賽打平后 , 用于決出勝負的特殊加賽方式)才決出勝負 , 最終, Grok 執黑在一盤 55 步的和棋中晉級 —— 盡管當時 Grok 明顯處于勝勢 。
但我們從頭說起 。 今天 Grok 的表現異常混亂, 頻頻送子得分 。 事實上 , 本場首盤由 Gemini 先拔頭籌 , Grok 相繼丟掉了一匹馬、一輛車 , 最后被將死 , 痛失一局 。
第二盤棋中 , Gemini 和 Grok 在第 11 步之前都嚴格遵循了開局定式 。 正如我們在之前的比賽中觀察到的那樣 , AI 一旦脫離開局理論、進入自主思考階段 , 就很容易開始出錯 。
而 Grok 和 Gemini 至今為止都表現出了比其他模型更長時間遵循理論的能力 , 這也可能是本場對決如此膠著的原因之一 。
不過 , 也如預期那樣 , 一旦 Grok 脫離定式 , 失誤就接踵而至 。 Grok 再次丟掉一匹馬 , 而 Gemini 卻出現幻覺 , 主動送后 , 隨后又全盤崩塌 , 最終將第二盤拱手相讓 。

Grok 脫離定式后失誤

Gemini 產生幻覺
接下來的兩盤棋又是決定性的比賽 , 延續了本屆錦標賽的熟悉劇本:AI 們先走幾步開局定式 , 然后靠著機械式的創造力迅速開始出錯 。
Grok 贏下了第三盤 , 暫時在比分上領先 , 但隨后 Gemini 反擊成功 , 在第四盤將比分扳平 。
比賽進入末日加賽 , Grok 執黑出戰 , 擁有和棋即勝的優勢(盡管本場比賽并沒有時間限制) 。
這場加賽堪稱精彩紛呈 。 Gemini 在大部分時間里局勢占優 , 甚至一度錯過了一個「一招將死」的機會 —— 這個將死模式與 o3 在第二盤戰勝 o4-mini 時用的那個幾乎一模一樣 。
正當觀眾緊張關注局勢時 , 國際象棋特級大師 Peter Heine Nielsen(現任 Magnus Carlsen 的教練) 也借機向 Grok 提供了輔導建議:

最終 , Gemini 在勝勢的車兵殘局中失誤白送皇后 , 將勝利拱手讓給 Grok 。
然而 , 劇情并未就此告終:由于 Grok 在多一車對單兵的必勝局面下未能兌現優勢 , 雙方三次重復局面 , 對局戲劇性地以和棋收場 。 盡管結局出人意料 , 這場比賽仍被評選為今日最佳對局 。

Gemini 2.5 Pro 對陣 Grok 4:和棋收場
接下來 , X 的 Grok 和 OpenAI 的 o3 將在明天的決賽中相遇 。 谷歌的 Gemini 2.5 Pro 和 o4-mini 將爭奪季軍和第四名 。
在昨天的投票中 , 大家普遍看好 Gemini 2.5 Pro 和 Grok 4 成為最終贏家 。

那么現在 , 你還會把票投給 Grok 4 嗎?

    推薦閱讀