創歷史,GPT-5全球頂尖大賽奪冠,人類屈居第二,北交大團隊國內第一

創歷史,GPT-5全球頂尖大賽奪冠,人類屈居第二,北交大團隊國內第一

文章圖片

創歷史,GPT-5全球頂尖大賽奪冠,人類屈居第二,北交大團隊國內第一

文章圖片

創歷史,GPT-5全球頂尖大賽奪冠,人類屈居第二,北交大團隊國內第一

智東西9月18日消息 , 今天凌晨 , OpenAI和谷歌前后腳宣布 , 自家模型在全球知名編程競賽ICPC 2025(第49屆國際大學生程序設計競賽)總決賽獲得金牌級別的表現 。
OpenAI推理系統答對了全部12道題目 , 并且一次性答對11道題 , 最難的題目提交了9次后成功 , 與人類團隊相比可排第一;Gemini 2.5 Deep Think高級版本在677分鐘內解出10道題 , 與人類團隊相比可位列第二 。
如果將AI列入ICPC的總排名中 , 前三名應該是OpenAI推理系統、圣彼得堡國立大學、谷歌Gemini 2.5 Deep Think高級版本 。
ICPC的要求是參賽者在5個小時內解出12道復雜算法問題 , 解題方案是否完美、解題耗時都會影響積分 。
最終139支隊伍中獲得金牌的為前四名 , 分別為圣彼得堡國立大學、東京大學、北京交通大學、清華大學 , 解出題目最多的是圣彼得堡國立大學 , 共11道 。
ICPC拿下金牌的人類團隊
這是繼2個月前 , OpenAI推理系統、谷歌Gemini 2.5 Deep Think在國際數學奧林匹克競賽(IMO)之后 , 又一次在頂尖國際競賽中證明了自己的實力 。
谷歌Gemini 2.5 Deep Think高級版本參加ICPC總決賽的代碼已經在GitHub開源 。
GitHub地址:
https://github.com/google-deepmind/gemini_icpc2025

01. OpenAI拿下滿分 谷歌錯兩道ICPC是全球公認的歷史最悠久、規模最大、最負盛名的大學級算法編程競賽 , 每年來自近3000所大學和超過103個國家的參與者競相解決現實世界的編程問題 。
OpenAI和谷歌都參與并獲得金牌級別表現 , OpenAI推理系統解答了12道題 , 谷歌Gemini 2.5 Deep Think高級版本答出10道題 , 最好的人類團隊答出11道題 。
1、OpenAI:拿下滿分 , 11道題一次就做對
OpenAI推理系統獲得滿分 。
OpenAI提到并沒有專門為ICPC訓練模型 , 其采用通用推理模型組合的方式參賽 。
比賽中 , GPT-5與一款實驗性推理模型共同生成解題方案 , 由該實驗性推理模型負責篩選待提交的方案 。 最終 , GPT-5正確解答了11道題目 , 而最后一道也是難度最高的一道題目由這款實驗性推理模型解決 。
其模型一次性答對了11道題 , 最難的問題在第9次提交時成功了 。
2、谷歌:答對10道題 , 45分鐘解出8道題
Gemini 2.5 Deep Think高級版本按照ICPC規則在遠程在線環境中進行現場比賽 , 比人類參賽者晚10分鐘開始 。 Gemini總共花費677分鐘 , 解決了12個問題中的10個 , 其中8個花費45分鐘 , 另外2個問題花費3個小時 。
下圖是2025年ICPC總決賽中解決每個問題所用的時間 , Gemini所花的時間以藍色顯示 , 最快的大學生團隊的時間以灰色顯示 。
Gemini在3道題目上的解題時間都超過了人類 。
ICPC總決賽中解決每個問題所用的時間
此外 , 谷歌DeepMind還提到一道困住所有人類團隊的難題 , 被Gemini在半小時內成功解答 。
問題C要求團隊設計一套解決方案 , 通過相互連接的管道網絡將液體輸送至一組儲液罐 , 目標是找到一種管道配置 , 以最快速度將所有儲液罐注滿 。
該問題存在無限多種可能的配置 , 因為每條管道均可處于開啟、關閉甚至部分開啟的狀態 , 這使得尋找最優配置的難度極大 。
問題C簡介
Gemini找到了有效的解決方案:它首先假設每個水庫都有一個“優先級值” , 代表每個水庫與其他水庫相比應該獲得的優先程度 。
當給定一組優先級值時 , 可以使用動態規劃算法找到管道的最佳配置 。
Gemini發現 , 通過應用極小極大定理(Minimax Theorem) , 原問題可轉化為尋找能使最終流量受到最大約束的優先級數值 。
借助優先級數值與最優流量之間的關聯 , Gemini在類似碗狀的凸性解空間中 , 通過嵌套三分搜索(Nested Ternary Searches)快速找到最優優先級數值 , 最終解決了C題 。
目前訂閱Google AI Ultra的Gemini用戶已經可以在Gemini App中使用輕量級版本的Gemini 2.5 Deep Think 。

02. ICPC金牌水平 展現大模型抽象推理能力谷歌DeepMind的博客中提到 , Gemini的表現得益于其在預訓練、訓練后、強化學習技術、多步驟推理和平行思維方面的技術創新 。
例如 , 在強化學習過程中 , 研究人員訓練Gemini為編程人員面臨的一些最困難的問題進行推理和生成代碼 , 從結果反饋中學習并改進其方法 。 為了解決一個問題 , 多個Gemini Agent會各自提出自己的解決方案 , 使用終端執行代碼和測試 , 然后根據所有嘗試迭代解決方案 。
谷歌DeepMind的內部研究表明 , Gemini 2.5 Deep Think高級版本也能在2023年和2024年ICPC世界總決賽中取得金牌級別的表現 , 表現不亞于全球前20名競技開發者 。
在ICPC上獲得金牌水平對軟件開發具有直接的實際影響 , 如果將比賽中最好的AI和人類解決方案結合起來 , 所有12個問題都會得到徹底和正確的解決 。 這表明AI有潛力提供獨特思路 , 為人類專家提供補充 。
除了數學和編程外 , Gemini 2.5 Deep Think高級版本還展示了在抽象推理方面的能力 。
這是因為 , ICPC的問題需要模型理解復雜的問題、設計多步驟的邏輯計劃、完美實施 , 這一過程與許多科學和工程領域所需的技能相同 , 包括設計新藥或微芯片等領域 。
OpenAI的研究人員在X上發布帖子稱 , 他們采用同一組模型參加IMO和IOI競賽 , 展示了模型性能以及通用型 。

03. 結語:大模型復雜 抽象問題解決能力提升從國際數學奧林匹克競賽(IMO)到此次的編程競賽 , OpenAI以及谷歌的模型在解決更具挑戰的數學、推理難題上迸發出巨大潛力 。 ICPC全球執行董事Bill Poucher博士稱 , ICPC一直致力于在解決問題方面設定最高標準 , Gemini在這一領域取得的成績 , 標志著定義下一代所需AI工具和學術標準的關鍵時刻 。
這些在競爭性編程和數學推理方面的突破共同證明了大模型在抽象推理問題解決方面的性能飛躍 , 或能與人類專家結合 , 解決更加復雜的難題 。
【創歷史,GPT-5全球頂尖大賽奪冠,人類屈居第二,北交大團隊國內第一】本文來自微信公眾號“智東西”(ID:zhidxcom) , 作者:程茜 , 編輯:李水青 , 36氪經授權發布 。

    推薦閱讀