全球30名頂尖數學家秘密集會圍剿AI當場破防！驚呼已接近數學天才_公共服務|民生政策

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：Aeneas 好困
【新智元導讀】最近， 30位世界頂尖數學家親自出馬，在UC伯克利對OpenAI o4-mini展開「圍剿」，兩天連出教授級難題，結果卻當場集體「破防」！有人直言：這個AI ，的確已接近數學天才的水平。曾經以為AGI遙遙無期，如今仿佛只剩臨門一腳了……

AI做數學，到底有多強？
就在最近， 30位世界著名數學家齊聚UC伯克利，希望在一次秘密數學會議上超越AI 。
在連續兩天用教授級難題轟炸這個AI后，研究者們驚愕地發現，它居然能解除一部分這世界上最難的可解問題！
其中一位數學家當場折服，直言這些模型已經接近了數學天才的水平。

【全球30名頂尖數學家秘密集會圍剿AI當場破防！驚呼已接近數學天才】
頂尖數學家們，服了

在五月中旬的一個周末，一場秘密數學峰會悄然召開。
三十位全球頂尖數學家與一個推理聊天機器人展開對決，后者需要解答專家們專門設計的難題。
結果如開頭所見，數學家們徹底服了。
本次參賽的這個機器人，背后就是OpenAI的o4-mini ，它已經能進行極其復雜的推理。
當然，它并不是世界上唯一有此能力的模型，谷歌的Gemini 2.5 Flash也具備相似的能力。
為什么o4-mini做起數學題來，能這么強？
這是因為，它是基于專門的數據集訓練，并獲得了更強的RLHF 。這種方法，就能讓它比傳統的LLM更深入地鉆研復雜數學問題。

Epoch AI ，尋根問底

而訓出o4-mini后， OpenAI也一直十分關注它的解題能力。
為了追蹤o4-mini的進展， OpenAI此前曾委托非營利組織Epoch AI設計300道解法尚未公開的數學題，專門來考驗大模型。
這些題的亮點就在于，因為解法并未問世，就絕不可能存在于訓練數據中。
果然，當Epoch AI用這些與訓練數據截然不同的問題去測試幾款推理模型時，它們幾乎全部翻車了。
即使表現最好的模型，解出率也不到2% 。
LLM做數學，真的不行么？Epoch AI沒有放棄探索。
2024年9月， Epoch AI 聘請了剛獲得數學博士學位的Elliot Glazer ，參與到一個代號為FrontierMath的全新新基準測試項目中。

這個項目的目的，就是收集不同難度登機的全新數學題。其中， T1-T3分別覆蓋本科、研究生及研究級別的挑戰。
結果， o4-mini讓人刮目相看。
到2025年2月， Glazer發現， o4-mini竟然能解出約20%的題目！
接著就在今年5月， Epoch AI還舉辦過一場競賽，邀請了約40位數學精英，分成8組，每組由學科專家和優秀本科生組成。
他們要與AI一同在陶哲軒等人提出的FrontierMath基準上，展開終極對決。
比賽一共23題，限時4.5小時，實驗最終得出：
o4-mini-medium碾壓人類平均水平（19%），解決了約22%題目。

不過， o4-mini能夠解決的問題，至少被一組數學家團隊破解。由此，人類團隊總體上解決了約35%的題目。

結果顯示， o4-mini一共擊敗六組團隊，在數學領域展現了驚人的潛力。

T4級測試，開始

隨后，他開始著手進行第四等級的測試——這次，要找出100道即使對專業數學家也極具挑戰性的難題。
放眼全球，能提出這種問題的人寥寥無幾，更不用說給出解答了。
為此，他要求了全球頂尖的數學家，要求他們必須簽署保密協議，甚至只能通過加密通訊應用Signal交流。
因為他擔心，如果用電子郵件這類傳統的聯絡方式，有可能就會被LLM掃描到，無意中成為訓練數據，從而污染整個測試數據集。
由于采用的方式格外嚴謹，起初項目的進展十分緩慢。
為了加快進度， Glazer推動Epoch AI 在5月17日（周六）和18日（周日）這兩天，舉辦了這場線下會議。
在會上，數學家們將敲定最后一批最高階的數學難題。

絞盡腦汁，誓要難倒AI

弗吉尼亞大學數學家、會議領導者兼評委Ken Ono將30名與會者分為六人一組。

在為期兩天的會議中，這些頂尖學者需要相互比拼，看誰能設計出自己能解、卻又能難倒 AI推理機器人的題目。
這個項目的獎勵，也是十分誘人。
o4-mini每解不出一道題，該題的出題人便能獲得7500美元的獎勵。
結果誰都沒想到， o4-mini給了數學家們致命一擊！
在周六深夜，全場數學家，都感覺十分挫敗——o4-mini出人意料的數學天賦，直接讓整個小組的努力付諸東流。
Ono出了一道題，是他專業領域內的專家都公認的數論開放性問題，可以說是一道非常不錯的考題，已經達到了博士生的水平。
他充滿信心地把這道題給了o4-mini ，結果在接下來的十分鐘里，他直接遭受了暴擊！
只見o4-mini如行云流水一般，實時演算出了完整的解法，還同步展示出了自己的推理過程。
它先花了兩分鐘，檢索并吃透了相關領域的文獻，然后在屏幕上寫道，為了學習，它想先嘗試一個簡化的「玩具」版本。
幾分鐘后，它寫道，自己已準備好解決那個更難的原題。
又過了五分鐘， o4-mini 給出了一個正確卻又俏皮得意的解答。
Ono描述道：它開始變得得意洋洋，甚至還加上一句，「無需引用，因為這個神秘數字由我算出！」

數學家大受打擊：我以為AGI永遠不會到來

大受打擊的Ono在周日一大早就趕緊登上Signal ，向所有與會者通報了情況。
我完全沒料到，要跟這樣的LLM交手，也從未在模型中見過如此強大的推理能力。這分明是科學家的工作方式。這太可怕了。

最終，團隊還是成功找到了10道難倒機器人的題，但AI的驚人能力，仍然讓所有研究人員驚嘆不已。
Ono感覺，與它共事就好像與一位「強大的合作者」協作。
倫敦數學科學研究所的數學家、AI數學應用先驅之一的Yang Hui He說：「這是一個頂尖優秀的研究生才能做到的事——不，實際上它做得更多。」

而且， o4-mini的速度也令人驚異。它遠遠超越了專業的數學家，人類專家需要數周甚至數月才能完成的工作，它只需要幾分鐘。
不僅如此，這次o4-mini的進步，也給人類敲響了警鐘。
Ono和He都擔心， o4-mini給出的結果可能會被人們過度信賴。
「證明方法有歸納法、反證法，現在又多了個恐嚇法。」Yang Hui He說。
「當某人用足夠權威的口吻說話時，人們會感到敬畏。我認為o4-mini已經掌握了恐嚇式證明的精髓，因為它說每句話時都帶著不容置疑的自信。」
會議臨近結束時，整個團隊也開始思考，數學家的未來將何去何從。
討論轉向了那個無法回避的T5——那些連最頂尖的數學家也無法解決的問題。
如果最終， AI達到了那個層次，那么顯然，數學家的角色將經歷劇變。
到那時，數學家或許將轉向只負責提出問題，并與推理機器人互動，引導它們發現新的數學真理，就像教授指導研究生一樣。
因此， Ono預測，在高等教育中培養創造力，將是讓數學這門學科薪火相傳的關鍵。
「我一直告訴我的同事們，那種認為AGI永遠不會到來，認為它不過是臺計算機的想法，是大錯特錯的。」Ono說。
「我不想渲染恐慌，但在許多方面，這些LLM已經超越了我們世界上絕大多數最優秀的研究生。

陶哲軒：早就知道了

其實AI做數學研究的這種超絕能力，陶哲軒早就心知肚明了。
最近，他一直在社交平臺上做出密集分享，給我們匯報AI解數學題的驚人進展。
比如就在幾天前，他剛剛分享了這個消息。
一道封塵18年的數學難題，在短短30天內被AlphaEvolve與人類聯手三度突破！

6月2日， Fan Zheng在arXiv亮出的最新論文——又又又一次把和差集指數θ紀錄往上推了0.000027 ，從1.173050提升到了1.173077 。
0.000027——一個在顯微鏡下才分辨得出的跨度，卻把加法組合學的天花板又往上頂了一寸。

論文地址：https://arxiv.org/abs/2506.01896
如此迅速、連續的取得進展，都離不開數學家與AI（AlphaEvolve）的相互配合。
這種突破讓陶哲軒都驚嘆：「對我而言，這是一個引人入勝的例證。」
陶哲軒認為，這展示了未來的數學研究中，高度計算機輔助、中度計算機輔助與傳統「紙筆」方法之間將如何相互作用。
這些范式各有優劣。
例如，當前的AlphaEvolve還極難用上后續論文中使用的漸近構造；但另一方面，若沒有AlphaEvolve的暴力搜索，人類方法也很難發現這些改進的切入點。
而在上個月，陶哲軒還剛剛聯手AI ，挑戰了分析學經典中的「ε-δ」極限問題。

GitHub Copilot在幫助新手入門和處理基礎任務時表現得相當不錯。
它能幫助用戶快速上手Lean語言，提供語法提示，并智能補全基本定義和聲明。
在比較簡單的證明，比如函數極限的和定理中， Copilot還能準確預測證明結構和關鍵步驟，表現得就像個得力助手一樣。
但當證明變得復雜時， Copilot的短板就暴露出來了。
比如在處理函數極限的差和積定理時，它在復雜的代數推導、尋找合適的數學引理（比如與絕對值相關的引理）等方面顯得力不從心。
Copilot有時還會出現「幻覺」，生成壓根不存在的策略，或者犯一些低級錯誤，導致證明過程亂成一團。
這時，陶哲軒不得不親自出馬，修正錯誤，甚至完全接管證明。

但總之，現在LLM的發展，已經讓我們愈發接近曾經陶哲軒的那個預言了——
在2026年， AI將與搜索和符號數學工具相結合，成為數學研究中值得信賴的合著者。
參考資料：
https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

全球30名頂尖數學家秘密集會圍剿AI當場破防！驚呼已接近數學天才

推薦閱讀

TB退貨沒吊牌了咋辦

鎢的特點

氫氧化鈣加二氧化碳方程式氫氧化鈣加二氧化碳方程式寓意

趾指甲長進肉里引起紅腫流膿是什么情況

水杯底的塑料怎么清洗掉水杯底的塑料怎么清洗掉了

怎樣除青春痘

Vivobook15 X 輕薄至簡,性能澎湃

吃柿子后能吃豬蹄嗎吃柿子后不能吃豬蹄

電熱毯可以反過來鋪嗎

鬼谷八荒人族圣體怎么樣鬼谷八荒人族圣體介紹

阿里云的云計算到底是做什么的，和我們的生活有哪些關系

正月十五干什么

汽車蓄電池的作用

贊美人美景美的話

現在中國移動8元/月的暢享套餐中國移動有沒有便宜的套餐

疫情在家做什么賺錢,用機器做什么賺錢