剛剛，OpenAI內部推理模型斬獲IOI 2025金牌，所有AI選手中第一_人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

OpenAI的內部推理模型，又拿下了IOI 2025金牌，擊敗325名人類選手，總排名第6 ， AI組第1 。該模型沿用IMO金牌版本，無專門訓練，限時5小時、50次提交且無聯網支持。
剛剛， OpenAI內部推理模型在獲得IMO金牌后，又拿下了IOI金牌。
和上次IMO一樣， OpenAI 使用了草莓形象來代表這個推理模型。
只不過這次的「草莓」不僅帶上了IOI的金牌，而且更加的擬人，這個形象很有可能進化為OpenAI內部推理系統代表形象。
OpenAI宣言的這個「內部推理系統」就是上次拿下IMO金牌，惹出爭議的同款模型。
IMO之后， OpenAI對IMO金牌模型進行了全面評估，發現除了數學競賽之外，它在許多其他領域（包括編程）也是目前最好的模型。
因此， OpenAI決定直接使用完全相同的IMO金牌模型，不做任何更改，并將其應用于IOI的系統中。
OpenAI官方也發帖證實了這個消息。
這個內部推理模型的得分足夠高，在今年的IOI線上競賽中，和人類一起排名位列第6 ，與其他AI排名則是第1 。
Sheryl Hsu表示，這次內部模型參加了IOI的在線AI競賽項目，一共330位參賽選手。
前5位都是人類。
此次比賽， AI和人類參賽者一樣，相同的5小時時間限制，以及最多50次的提交限制次數。
并且，和人類一樣，這個推理系統沒有「聯網」，也沒有「RAG」搜索，只能訪問基本的終端工具。
這個推理模型并沒有針對IOI進行特別訓練。
也就是說，除了讓模型連接到IOIAPI外，剩下的一切都靠AI自己推理。
其實去年， OpenAI就參加過IOI比賽，當時以略微低于銅牌分數線的成績收尾。
僅僅過去一年時間，推理模型的排名就從第49百分位躍升到第98百分位。
OpenAI內部推理模型-IOI金牌團隊
【剛剛，OpenAI內部推理模型斬獲IOI 2025金牌，所有AI選手中第一】不過，就在該消息發布沒有多久。
馬斯克的Grok也來攪局了！
首先要明確的是，這個「內部推理模型」并不是To C的模型，除了OpenAI內部，沒有人能夠訪問。
那像目前最頂級的商業模型，在IOI上表現如何？
答案是：慘不忍睹。
根據Vals AI的測試結果，目前能在IOI取得領先的商業模型，居然是Grok 4 。
首先，目前所有的頂尖模型都存在明顯不足，沒有一個模型能在任意一年的比賽中獲得獎牌。
Grok 4以26.2%的準確率領先，隨后是GPT-5、Gemini 2.5 Pro和Claude Opus 4.1 。
Vals AI通過其公開端點進行測試，所有商業模型在IOI上仍有很大的改進空間。
此外Vals AI這次測試中發現，「貴就是好」的道理也適用于大模型領域。
只有每道問題超過2美元的昂貴模型，才能取得有意義的表現。
也就是說， OpenAI實驗室里的那個推理模型，要遠遠強過目前公眾能夠接觸到的商業模型。
這可能給人們帶來很多遐想，目前最頂尖實驗室中的最先進的AI技術距離公眾還有多遠？
這引發了很多猜測和討論。
從IMO金牌鬧劇中可以看到，巨頭們對于這種「領先地位」的追求非常強。
谷歌Gemini為了給自己正名為「首個獲得IMO金牌的AI模型」，甚至有組委會出面宣布「OpenAI的宣布」是無效的。
甚至還有OpenAI被曝IMO金牌造假，陶哲軒揭露內幕的橋段。
目前GPT-5剛剛發布， OpenAI就馬上宣布IOI金牌，可以預測，這應該就是給后來的Gork 5和Gemini 3等模型準備的挑戰。
為何OpenAI、谷歌、Anthropic、Grok等巨頭們癡迷于刷榜和競賽通關？
巨頭們對刷榜和競賽排名的癡迷，根本上源自AI行業的高度競爭性和技術的快速迭代。
首先，刷榜是最直接有效的營銷手段之一。
排名榜單上的領先位置不僅意味著技術優勢，更代表了市場影響力和品牌認可度。一旦模型在權威比賽如IMO、IOI中斬獲佳績，企業便能迅速樹立強大的品牌形象，吸引公眾關注并提升用戶信任。
其次， AI領域的競賽排名通常與模型的通用性能和應用潛力高度相關。無論是IMO還是IOI ，這些比賽考驗的是模型的基礎推理、邏輯推演和泛化能力。
換句話說，競賽勝出代表著模型不僅在特定任務上表現優異，更意味著其在更廣泛的應用場景中可能具有領先的技術優勢。
最后，競賽勝出能夠大大提高對人才和資本的吸引力。
OpenAI團隊前往玻利維亞親自參加IOI
正因如此， OpenAI、谷歌DeepMind、Meta和Anthropic等AI巨頭始終熱衷于在競賽上相互較量，每一次榜單的變動都可能影響AI行業未來的格局。
那么，誰是地表最強AI？
也許這個競爭會一直持續到我們實現AGI的那天吧。

參考資料https://x.com/SherylHsu02/status/1954966118680105150

剛剛，OpenAI內部推理模型斬獲IOI 2025金牌，所有AI選手中第一

推薦閱讀

湖南油炸米粉肉的做法

螃蟹和蝦不能和什么一起吃

青梅果什么時候上市

皮革婚是什么意思

闖紅燈扣不扣分

word繪制表格怎么劃線

夢見雪后太陽夢見雪后太陽出來了

李元芳簡介

自研國產海思麒麟簡介海思麒麟芯片是哪個國家的產品品牌

簽了！華為正式對外官宣，外媒：這相當于確認了

銀川到西安客車電話是多少時間，請問銀川到西安的客車在哪個站發車每天幾點發車票多少錢

天鎮縣景點

小米手機怎么用USB連接電腦上網

西安二手車市場，西安的舊車交易市場在哪幾點開

開標原件怎么查,取消投標人原件核查

佳能打印機怎么連接wifi