
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
機器之心報道
編輯:杜偉
GPT-5 問世的同時 , o3 也在最后一戰中封王了 。
備受 AI 圈關注的首屆谷歌 Kaggle AI Chess 大賽(也即大模型國際象棋對抗賽)迎來了最終贏家 。
就在昨天 , Grok 4 攜手 OpenAI o3 進入了決賽 。 在機器之心的投票中 , 大家更傾向于 o3 戰勝 Grok 4 。
決賽結果如大家預期的一樣 , o3 以 4-0 橫掃 Grok 4 奪得冠軍 。
另外 , 在季軍爭奪戰中 , Gemini 2.5 Pro 以 3.5-0.5(三勝一和)強勢擊敗了 o4-mini 。
下圖為整個賽事所有選手的對陣表以及冠亞季軍得主 。
【4比0橫掃Grok 4,o3強勢奪冠,首屆大模型對抗賽結果出爐】評論區很有意思 , 「Grok 4 很強 , 直到它遇上了 o3 。 」
隨著今晨 GPT-5 的發布 , 大家很好奇它會有怎樣的表現呢 。
冠亞軍爭奪
o3 橫掃 Grok 4
一直到半決賽 , Grok 4 的勢頭都很猛 , 被認為是奪冠熱門 。 就連馬斯克都「裝」了起來 , 稱 Grok 4 玩國際象棋大材小用 , 它本身就沒有針對象棋游戲進行優化 。
盡管此前偶有不靈光的地方 , 但 xAI 的這款大模型始終展現出了碾壓級別的棋力 。 比賽中 , Grok 4 落子時近乎冷漠的風格 , 更讓這個招招致命的「機械野獸」看起來不可戰勝 。
然而 , Grok 4 的神話在決賽中轟然崩塌 , 以 0-4 完敗于喋喋不休(chatty)的 o3 。
當天 , Grok 4 的棋風與往日「判若兩人」 , 頻頻出現低級失誤 , 而 o3 幾乎全程保持冷酷的處刑姿態 。
首局較量中 , Grok 4 在開局階段就毫無緣由地白丟了一象 。 少子劣勢下 , Grok 4 竟主動尋求兌子 , 這顯然違反了所有棋類典籍中「劣勢方應避免簡化局面」的黃金法則 。
隨著接下來的連續失誤 , Grok 4 被 o3 干凈利落地將死 。 首局失利!
第二局上演了西西里防御的「毒兵變例」 , 這是國際象棋中一種極具攻擊性與風險性的開局變例 , 屬于西西里防御的分支 , 常見于納依多夫變例中 。 其核心是黑方故意吃掉白方看似「無保護」的 b2 或 a2 兵(實際是陷阱) , 從而引發激烈的戰術對抗 。
如果說 b2 兵對人類棋手是劇毒之物 , 那么 a2 兵對人工智能而言簡直是致命病毒 。 比賽中 , 黑棋竟走出 12...Qxa2?? , 無視白方 c3 馬的守護貿然吃兵 。 此后o3 輕松贏得第二局的勝利 。
而到了 Grok 4 執白的第三局 , 本賽事首次出現 AI 采用西西里防御的馬羅茲結構 。 憑借穩健的盤面 , Grok 4 似乎要重拾王者風范 。 難道前兩局的潰敗只是戲耍對手嗎?顯然不是 。
當白棋走出 11.Nd5?? 并白送一馬時 , 所有幻想隨之破滅 。 緊接著 Grok 4 又接連葬送皇后、車象易位權 , 最終在第三局滿盤皆輸 。
到了決勝局 , 兩個大模型貢獻出了系列賽最膠著的一戰 , 甚至一度輪到 o3 自毀長城 , 它早早因失誤白送皇后 , 局面陷入到了絕境 。
但正如解說嘉賓、國際象棋大師中村光所指出的 , 盤面仍暗藏玄機 。 此后 , o3 觸底反彈 , 與先前的致命失誤形成鮮明對比 , 憑借精妙戰術奪回后手 。
比賽最終演變為 o3 多一兵的殘局 , 理論上仍可成和 。 不過 , 正如此前 Grok 4 手握車兵卻無法完成將死所暴露的缺陷 , 它在殘局階段顯然存在致命短板 。
相反 , o3 展現出更精準的終盤理解力 , 步步為營完成升變 , 最終以教科書般的將殺為這場對決畫上句號 。
隨著第四局的勝出 , o3 成為首屆大模型國際象棋對抗賽的冠軍 , Grok 4 只能屈居亞軍 。
Gemini 2.5 Pro 摘得季軍
谷歌總算「沒白來」
季軍爭奪戰在谷歌 Gemini 2.5 Pro 與 OpenAI o4-mini 之間展開 , 雖然不像決賽結果那樣懸殊 , 卻也難稱得上稱勢均力敵 。 憑借三勝一和的戰績 , Gemini 最終摘得銅牌 。
不過 , Gemini 的統治級表現背后 , 是全程混亂不堪的對局質量 , 與冠軍 o3 行云流水的棋風相差甚遠 。 首局 , Gemini 還能夠組織起像樣的攻勢 , 讓人誤以為這個 AI「胸有成竹」 。
然而 , 第三局的平局才真正暴露出這場季軍戰的本質 —— 雙方幾乎都在夢游 , 整場對局充斥著業余級的失誤 。
這局棋的勝率曲線如同過山車般劇烈波動 , 雙方頻頻「互送大禮」 , 連最簡單的勝勢都無法把握 。
完整對局形勢如下所示 。 盡管這場充滿爭議的平局暴露出了 Gemini 的不足 , 但它的整體表現已足夠亮眼 。
最終 , 憑借另外三局的勝利 , Gemini 2.5 Pro 成功鎖定季軍席位 , 不至于讓谷歌這個賽事主辦方顆粒無收 。 未來 , 人們更期待看到谷歌如何利用此次賽事數據來優化其 AI 系統 。
原文鏈接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-3
推薦閱讀
- 努比亞Air手機曝光,神似iPhone 17 Air
- 靈動島自由縮放,小米16這波交互改得比蘋果還靈
- 庫克尷尬了,iPhone回美國制造,僅組裝工資就要8600元,比手機貴
- 可能是史上高性價比!驍龍8 Gen5手機要來了:起步僅2000元
- 全球平板電腦排行榜更新:小米第五,華為第三,第一名占比36.1%
- 什么音箱效果最好?藍牙音箱怎么選音質好?藍牙音箱性價比推薦!
- 比小米15還香!驍龍8至尊+6260mAh+185克,國補后僅2899元
- 比佳能先進?國產納米壓印光刻機交付,線寬<10nm,制造5nm芯片?
- 實際游戲體驗差多少?移動端RTX/桌面端RTX 5060對比評測
- 上半年,AMD在韓國顯卡市場占比躥升至21%
