全球30名頂尖數學家秘密集會圍剿AI當場破防!驚呼已接近數學天才

全球30名頂尖數學家秘密集會圍剿AI當場破防!驚呼已接近數學天才

文章圖片

全球30名頂尖數學家秘密集會圍剿AI當場破防!驚呼已接近數學天才

文章圖片

全球30名頂尖數學家秘密集會圍剿AI當場破防!驚呼已接近數學天才

文章圖片

全球30名頂尖數學家秘密集會圍剿AI當場破防!驚呼已接近數學天才

文章圖片

全球30名頂尖數學家秘密集會圍剿AI當場破防!驚呼已接近數學天才

文章圖片

全球30名頂尖數學家秘密集會圍剿AI當場破防!驚呼已接近數學天才

文章圖片

全球30名頂尖數學家秘密集會圍剿AI當場破防!驚呼已接近數學天才

文章圖片

全球30名頂尖數學家秘密集會圍剿AI當場破防!驚呼已接近數學天才
編輯:Aeneas 好困
【新智元導讀】最近 , 30位世界頂尖數學家親自出馬 , 在UC伯克利對OpenAI o4-mini展開「圍剿」 , 兩天連出教授級難題 , 結果卻當場集體「破防」!有人直言:這個AI , 的確已接近數學天才的水平 。 曾經以為AGI遙遙無期 , 如今仿佛只剩臨門一腳了……


AI做數學 , 到底有多強?
就在最近 , 30位世界著名數學家齊聚UC伯克利 , 希望在一次秘密數學會議上超越AI 。
在連續兩天用教授級難題轟炸這個AI后 , 研究者們驚愕地發現 , 它居然能解除一部分這世界上最難的可解問題!
其中一位數學家當場折服 , 直言這些模型已經接近了數學天才的水平 。



【全球30名頂尖數學家秘密集會圍剿AI當場破防!驚呼已接近數學天才】
頂尖數學家們 , 服了


在五月中旬的一個周末 , 一場秘密數學峰會悄然召開 。
三十位全球頂尖數學家與一個推理聊天機器人展開對決 , 后者需要解答專家們專門設計的難題 。
結果如開頭所見 , 數學家們徹底服了 。
本次參賽的這個機器人 , 背后就是OpenAI的o4-mini , 它已經能進行極其復雜的推理 。
當然 , 它并不是世界上唯一有此能力的模型 , 谷歌的Gemini 2.5 Flash也具備相似的能力 。
為什么o4-mini做起數學題來 , 能這么強?
這是因為 , 它是基于專門的數據集訓練 , 并獲得了更強的RLHF 。 這種方法 , 就能讓它比傳統的LLM更深入地鉆研復雜數學問題 。

Epoch AI , 尋根問底


而訓出o4-mini后 , OpenAI也一直十分關注它的解題能力 。
為了追蹤o4-mini的進展 , OpenAI此前曾委托非營利組織Epoch AI設計300道解法尚未公開的數學題 , 專門來考驗大模型 。
這些題的亮點就在于 , 因為解法并未問世 , 就絕不可能存在于訓練數據中 。
果然 , 當Epoch AI用這些與訓練數據截然不同的問題去測試幾款推理模型時 , 它們幾乎全部翻車了 。
即使表現最好的模型 , 解出率也不到2% 。
LLM做數學 , 真的不行么?Epoch AI沒有放棄探索 。
2024年9月 , Epoch AI 聘請了剛獲得數學博士學位的Elliot Glazer , 參與到一個代號為FrontierMath的全新新基準測試項目中 。

這個項目的目的 , 就是收集不同難度登機的全新數學題 。 其中 , T1-T3分別覆蓋本科、研究生及研究級別的挑戰 。
結果 , o4-mini讓人刮目相看 。
到2025年2月 , Glazer發現 , o4-mini竟然能解出約20%的題目!
接著就在今年5月 , Epoch AI還舉辦過一場競賽 , 邀請了約40位數學精英 , 分成8組 , 每組由學科專家和優秀本科生組成 。
他們要與AI一同在陶哲軒等人提出的FrontierMath基準上 , 展開終極對決 。
比賽一共23題 , 限時4.5小時 , 實驗最終得出:
o4-mini-medium碾壓人類平均水平(19%) , 解決了約22%題目 。


不過 , o4-mini能夠解決的問題 , 至少被一組數學家團隊破解 。 由此 , 人類團隊總體上解決了約35%的題目 。



結果顯示 , o4-mini一共擊敗六組團隊 , 在數學領域展現了驚人的潛力 。

T4級測試 , 開始


隨后 , 他開始著手進行第四等級的測試——這次 , 要找出100道即使對專業數學家也極具挑戰性的難題 。
放眼全球 , 能提出這種問題的人寥寥無幾 , 更不用說給出解答了 。
為此 , 他要求了全球頂尖的數學家 , 要求他們必須簽署保密協議 , 甚至只能通過加密通訊應用Signal交流 。
因為他擔心 , 如果用電子郵件這類傳統的聯絡方式 , 有可能就會被LLM掃描到 , 無意中成為訓練數據 , 從而污染整個測試數據集 。
由于采用的方式格外嚴謹 , 起初項目的進展十分緩慢 。
為了加快進度 , Glazer推動Epoch AI 在5月17日(周六)和18日(周日)這兩天 , 舉辦了這場線下會議 。
在會上 , 數學家們將敲定最后一批最高階的數學難題 。

絞盡腦汁 , 誓要難倒AI


弗吉尼亞大學數學家、會議領導者兼評委Ken Ono將30名與會者分為六人一組 。

在為期兩天的會議中 , 這些頂尖學者需要相互比拼 , 看誰能設計出自己能解、卻又能難倒 AI推理機器人的題目 。
這個項目的獎勵 , 也是十分誘人 。
o4-mini每解不出一道題 , 該題的出題人便能獲得7500美元的獎勵 。
結果誰都沒想到 , o4-mini給了數學家們致命一擊!
在周六深夜 , 全場數學家 , 都感覺十分挫敗——o4-mini出人意料的數學天賦 , 直接讓整個小組的努力付諸東流 。
Ono出了一道題 , 是他專業領域內的專家都公認的數論開放性問題 , 可以說是一道非常不錯的考題 , 已經達到了博士生的水平 。
他充滿信心地把這道題給了o4-mini , 結果在接下來的十分鐘里 , 他直接遭受了暴擊!
只見o4-mini如行云流水一般 , 實時演算出了完整的解法 , 還同步展示出了自己的推理過程 。
它先花了兩分鐘 , 檢索并吃透了相關領域的文獻 , 然后在屏幕上寫道 , 為了學習 , 它想先嘗試一個簡化的「玩具」版本 。
幾分鐘后 , 它寫道 , 自己已準備好解決那個更難的原題 。
又過了五分鐘 , o4-mini 給出了一個正確卻又俏皮得意的解答 。
Ono描述道:它開始變得得意洋洋 , 甚至還加上一句 , 「無需引用 , 因為這個神秘數字由我算出!」

數學家大受打擊:我以為AGI永遠不會到來


大受打擊的Ono在周日一大早就趕緊登上Signal , 向所有與會者通報了情況 。
我完全沒料到 , 要跟這樣的LLM交手 , 也從未在模型中見過如此強大的推理能力 。 這分明是科學家的工作方式 。 這太可怕了 。


最終 , 團隊還是成功找到了10道難倒機器人的題 , 但AI的驚人能力 , 仍然讓所有研究人員驚嘆不已 。
Ono感覺 , 與它共事就好像與一位「強大的合作者」協作 。
倫敦數學科學研究所的數學家、AI數學應用先驅之一的Yang Hui He說:「這是一個頂尖優秀的研究生才能做到的事——不 , 實際上它做得更多 。 」

而且 , o4-mini的速度也令人驚異 。 它遠遠超越了專業的數學家 , 人類專家需要數周甚至數月才能完成的工作 , 它只需要幾分鐘 。
不僅如此 , 這次o4-mini的進步 , 也給人類敲響了警鐘 。
Ono和He都擔心 , o4-mini給出的結果可能會被人們過度信賴 。
「證明方法有歸納法、反證法 , 現在又多了個恐嚇法 。 」Yang Hui He說 。
「當某人用足夠權威的口吻說話時 , 人們會感到敬畏 。 我認為o4-mini已經掌握了恐嚇式證明的精髓 , 因為它說每句話時都帶著不容置疑的自信 。 」
會議臨近結束時 , 整個團隊也開始思考 , 數學家的未來將何去何從 。
討論轉向了那個無法回避的T5——那些連最頂尖的數學家也無法解決的問題 。
如果最終 , AI達到了那個層次 , 那么顯然 , 數學家的角色將經歷劇變 。
到那時 , 數學家或許將轉向只負責提出問題 , 并與推理機器人互動 , 引導它們發現新的數學真理 , 就像教授指導研究生一樣 。
因此 , Ono預測 , 在高等教育中培養創造力 , 將是讓數學這門學科薪火相傳的關鍵 。
「我一直告訴我的同事們 , 那種認為AGI永遠不會到來 , 認為它不過是臺計算機的想法 , 是大錯特錯的 。 」Ono說 。
「我不想渲染恐慌 , 但在許多方面 , 這些LLM已經超越了我們世界上絕大多數最優秀的研究生 。

陶哲軒:早就知道了


其實AI做數學研究的這種超絕能力 , 陶哲軒早就心知肚明了 。
最近 , 他一直在社交平臺上做出密集分享 , 給我們匯報AI解數學題的驚人進展 。
比如就在幾天前 , 他剛剛分享了這個消息 。
一道封塵18年的數學難題 , 在短短30天內被AlphaEvolve與人類聯手三度突破!

6月2日 , Fan Zheng在arXiv亮出的最新論文——又又又一次把和差集指數θ紀錄往上推了0.000027 , 從1.173050提升到了1.173077 。
0.000027——一個在顯微鏡下才分辨得出的跨度 , 卻把加法組合學的天花板又往上頂了一寸 。

論文地址:https://arxiv.org/abs/2506.01896
如此迅速、連續的取得進展 , 都離不開數學家與AI(AlphaEvolve)的相互配合 。
這種突破讓陶哲軒都驚嘆:「對我而言 , 這是一個引人入勝的例證 。 」
陶哲軒認為 , 這展示了未來的數學研究中 , 高度計算機輔助、中度計算機輔助與傳統「紙筆」方法之間將如何相互作用 。
這些范式各有優劣 。
例如 , 當前的AlphaEvolve還極難用上后續論文中使用的漸近構造;但另一方面 , 若沒有AlphaEvolve的暴力搜索 , 人類方法也很難發現這些改進的切入點 。
而在上個月 , 陶哲軒還剛剛聯手AI , 挑戰了分析學經典中的「ε-δ」極限問題 。

GitHub Copilot在幫助新手入門和處理基礎任務時表現得相當不錯 。
它能幫助用戶快速上手Lean語言 , 提供語法提示 , 并智能補全基本定義和聲明 。
在比較簡單的證明 , 比如函數極限的和定理中 , Copilot還能準確預測證明結構和關鍵步驟 , 表現得就像個得力助手一樣 。
但當證明變得復雜時 , Copilot的短板就暴露出來了 。
比如在處理函數極限的差和積定理時 , 它在復雜的代數推導、尋找合適的數學引理(比如與絕對值相關的引理)等方面顯得力不從心 。
Copilot有時還會出現「幻覺」 , 生成壓根不存在的策略 , 或者犯一些低級錯誤 , 導致證明過程亂成一團 。
這時 , 陶哲軒不得不親自出馬 , 修正錯誤 , 甚至完全接管證明 。

但總之 , 現在LLM的發展 , 已經讓我們愈發接近曾經陶哲軒的那個預言了——
在2026年 , AI將與搜索和符號數學工具相結合 , 成為數學研究中值得信賴的合著者 。
參考資料:
https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

    推薦閱讀