
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
OpenAI的內部推理模型 , 又拿下了IOI 2025金牌 , 擊敗325名人類選手 , 總排名第6 , AI組第1 。 該模型沿用IMO金牌版本 , 無專門訓練 , 限時5小時、50次提交且無聯網支持 。
剛剛 , OpenAI內部推理模型在獲得IMO金牌后 , 又拿下了IOI金牌 。
和上次IMO一樣 , OpenAI 使用了草莓形象來代表這個推理模型 。
只不過這次的「草莓」不僅帶上了IOI的金牌 , 而且更加的擬人 , 這個形象很有可能進化為OpenAI內部推理系統代表形象 。
OpenAI宣言的這個「內部推理系統」就是上次拿下IMO金牌 , 惹出爭議的同款模型 。
IMO之后 , OpenAI對IMO金牌模型進行了全面評估 , 發現除了數學競賽之外 , 它在許多其他領域(包括編程)也是目前最好的模型 。
因此 , OpenAI決定直接使用完全相同的IMO金牌模型 , 不做任何更改 , 并將其應用于IOI的系統中 。
OpenAI官方也發帖證實了這個消息 。
這個內部推理模型的得分足夠高 , 在今年的IOI線上競賽中 , 和人類一起排名位列第6 , 與其他AI排名則是第1 。
Sheryl Hsu表示 , 這次內部模型參加了IOI的在線AI競賽項目 , 一共330位參賽選手 。
前5位都是人類 。
此次比賽 , AI和人類參賽者一樣 , 相同的5小時時間限制 , 以及最多50次的提交限制次數 。
并且 , 和人類一樣 , 這個推理系統沒有「聯網」 , 也沒有「RAG」搜索 , 只能訪問基本的終端工具 。
這個推理模型并沒有針對IOI進行特別訓練 。
也就是說 , 除了讓模型連接到IOIAPI外 , 剩下的一切都靠AI自己推理 。
其實去年 , OpenAI就參加過IOI比賽 , 當時以略微低于銅牌分數線的成績收尾 。
僅僅過去一年時間 , 推理模型的排名就從第49百分位躍升到第98百分位 。
OpenAI內部推理模型-IOI金牌團隊
【剛剛,OpenAI內部推理模型斬獲IOI 2025金牌,所有AI選手中第一】不過 , 就在該消息發布沒有多久 。
馬斯克的Grok也來攪局了!
首先要明確的是 , 這個「內部推理模型」并不是To C的模型 , 除了OpenAI內部 , 沒有人能夠訪問 。
那像目前最頂級的商業模型 , 在IOI上表現如何?
答案是:慘不忍睹 。
根據Vals AI的測試結果 , 目前能在IOI取得領先的商業模型 , 居然是Grok 4 。
首先 , 目前所有的頂尖模型都存在明顯不足 , 沒有一個模型能在任意一年的比賽中獲得獎牌 。
Grok 4以26.2%的準確率領先 , 隨后是GPT-5、Gemini 2.5 Pro和Claude Opus 4.1 。
Vals AI通過其公開端點進行測試 , 所有商業模型在IOI上仍有很大的改進空間 。
此外Vals AI這次測試中發現 , 「貴就是好」的道理也適用于大模型領域 。
只有每道問題超過2美元的昂貴模型 , 才能取得有意義的表現 。
也就是說 , OpenAI實驗室里的那個推理模型 , 要遠遠強過目前公眾能夠接觸到的商業模型 。
這可能給人們帶來很多遐想 , 目前最頂尖實驗室中的最先進的AI技術距離公眾還有多遠?
這引發了很多猜測和討論 。
從IMO金牌鬧劇中可以看到 , 巨頭們對于這種「領先地位」的追求非常強 。
谷歌Gemini為了給自己正名為「首個獲得IMO金牌的AI模型」 , 甚至有組委會出面宣布「OpenAI的宣布」是無效的 。
甚至還有OpenAI被曝IMO金牌造假 , 陶哲軒揭露內幕的橋段 。
目前GPT-5剛剛發布 , OpenAI就馬上宣布IOI金牌 , 可以預測 , 這應該就是給后來的Gork 5和Gemini 3等模型準備的挑戰 。
為何OpenAI、谷歌、Anthropic、Grok等巨頭們癡迷于刷榜和競賽通關?
巨頭們對刷榜和競賽排名的癡迷 , 根本上源自AI行業的高度競爭性和技術的快速迭代 。
首先 , 刷榜是最直接有效的營銷手段之一 。
排名榜單上的領先位置不僅意味著技術優勢 , 更代表了市場影響力和品牌認可度 。 一旦模型在權威比賽如IMO、IOI中斬獲佳績 , 企業便能迅速樹立強大的品牌形象 , 吸引公眾關注并提升用戶信任 。
其次 , AI領域的競賽排名通常與模型的通用性能和應用潛力高度相關 。 無論是IMO還是IOI , 這些比賽考驗的是模型的基礎推理、邏輯推演和泛化能力 。
換句話說 , 競賽勝出代表著模型不僅在特定任務上表現優異 , 更意味著其在更廣泛的應用場景中可能具有領先的技術優勢 。
最后 , 競賽勝出能夠大大提高對人才和資本的吸引力 。
OpenAI團隊前往玻利維亞親自參加IOI
正因如此 , OpenAI、谷歌DeepMind、Meta和Anthropic等AI巨頭始終熱衷于在競賽上相互較量 , 每一次榜單的變動都可能影響AI行業未來的格局 。
那么 , 誰是地表最強AI?
也許這個競爭會一直持續到我們實現AGI的那天吧 。
參考資料https://x.com/SherylHsu02/status/1954966118680105150
推薦閱讀
- 谷歌內部揭秘Genie 3:Sora后最強AI爆款,開啟世界模型新時代
- 奧特曼神秘晚宴講話曝出!OpenAI的CEO或將是個AI,Chrome也想買
- ChatGPT會讓大腦退化?OpenAI高管用它救下自己「讀寫障礙」的女兒
- 扎克伯格看OpenAI直播挖人,北大校友孫之清加入Meta
- 被曝蒸餾DeepSeek還造假!歐版OpenAI塌方了
- OpenAI沒開源的gpt-oss基礎模型,他去掉強化學習逆轉出來了
- OpenAI和奧特曼將投資一家腦機接口公司,直接與Neuralink競爭
- OpenAI采用新數據類型MXFP4,推理成本降低75%
- 是福爾摩斯,也是列文虎克,智譜把OpenAI藏著的視覺推理能力開源了
- 剛剛,OpenAI內部推理模型斬獲IOI 2025金牌!所有AI選手中第一
