Gemini聯手頂尖學者破解理論科學難題:推翻人類學者的假設

Gemini聯手頂尖學者破解理論科學難題:推翻人類學者的假設

文章圖片

Gemini聯手頂尖學者破解理論科學難題:推翻人類學者的假設

文章圖片

Gemini聯手頂尖學者破解理論科學難題:推翻人類學者的假設

此前 , 業界對AI 能力的評價往往基于“會不會做題” , 比如能不能在高考試題上擊敗人類考生、在奧數競賽中斬獲幾塊金牌 , 又或者寫出的代碼夠不夠格通過互聯網大廠的筆試……

但在這些看似“人類一敗涂地 , AI大獲全勝”的測試背后 , 科學界一直存在一種冷靜甚至審慎的看法:AI 確實很會“做題” , 但它能解決那些人類尚未解決的“真問題”嗎?畢竟 , 背誦教科書是一回事 , 拓展人類知識的邊界則是完全不同的另一回事 。

許多科學家曾認為 , 目前的 AI 或許只能做簡單的模仿者 , 無法進行深度的邏輯推理和創新 。 然而 , Google Research 最新發布的一項重磅研究打破了這種質疑 , 并向我們展示:AI 不僅是只會做選擇題的學生 , 還可以成為人類頂尖學者的“左膀右臂” , 共同攻克多個困擾學界已久的難題 。


(來源:arXiv)

2 月 3 日 , Google Research 聯合卡內基梅隆大學、哈佛大學、麻省理工學院等多所頂尖高校研究人員共同在預印本平臺 arXiv 提交了一篇論文:《利用 Gemini 加速科學研究:案例研究與通用技術》(Accelerating Scientific Research with Gemini: Case Studies and Common Techniques) , 詳細記錄了前沿大語言模型 , 特別是具備增強推理能力的 Gemini Deep Think 及其變體 , 如何從傳統的輔助工具轉變為理論科學研究中的實質性合作者 。

研究團隊通過展示 Gemini 系列大型語言模型在理論計算機科學、物理學、經濟學等多個領域的實際應用 , 證實了 Gemini 在解決開放性數學問題、反駁長期存在的猜想以及生成復雜新證明方面具備卓越性能 , 還總結出了一套行之有效的人機協作方法論 。

為了讓 Gemini 真正參與專家級的科研工作 , 研究人員首先構建了幾項關鍵的協作規則 。 首先是“迭代提示與改進” , 即模型很少能一次性解決深奧問題 , 需要通過多輪對話 , 由人類研究員將大問題分解為可驗證的子任務 , 并提供高層級的證明框架(即“腳手架”) , 引導模型逐步填補技術細節 。

其次是“思想的異花授粉”(Cross-Pollination of Ideas) , 團隊利用模型攝取了跨學科海量文獻的優勢 , 借助其識別出不同數學領域之間 , 可能被人類專家忽視的隱秘聯系 。

此外還有“神經符號循環”(Neuro-Symbolic Loops)技術 , 即將模型嵌入自動化的編程環境中 , 讓模型生成數學公式 , 同時編寫代碼對假設進行數值驗證 , 根據執行錯誤(如 Python 回溯信息)自主修正推導路徑 , 從而在沒有人類干預的情況下修剪無效的推理分支 , 形成一個自我修正的閉環 。


(來源:Google Research)

這些框架搭建完成后 , Gemini 隨即在分屬多個領域的科學研究中展現出巨大的應用潛力 。 首先 , 在密碼學領域 , Gemini 指出了一種前沿協議的致命漏洞 。 這一名為“簡潔非交互式論證”(SNARGs)的協議 , 旨在保護區塊鏈和隱私計算 , 如果這個錯誤未被發現 , 未來的數字安全可能面臨巨大風險 。

具體來看 , 針對一篇聲稱基于容錯學習(LWE)假設實現簡潔非交互式論證(SNARGs)的預印本論文 , 研究人員設計了一種“對抗性自我糾正”的提示策略 , 要求模型嚴格批判自己的發現 。 結果 , Gemini 敏銳地指出 , 論文中“完美一致性”定義與實際構造僅能實現“統計一致性”之間存在嚴重的邏輯缺陷 , 這一發現隨后得到了密碼學專家和論文原作者的確認 。

“在線次模福利最大化”(online submodular welfare maximization)是一個經典的經濟學與算法問題 , 研究如何在需求未知且逐個出現的情況下 , 例如在實時廣告競價或云計算資源分配中 , 將資源分給不同的人以最大化整體滿意度 。 這里的“次?!敝傅氖沁呺H效益遞減 , 即擁有的越多 , 新獲得的價值就越低 。

此前 , 谷歌研究科學家尼蒂什·科魯拉(Nitish Korula)等人提出過一個與之相關的猜想 , 認為某種貪婪算法的效率界限可以被進一步提升 。 基于此 , Gemini 并未順著原假設的思路進一步證實 , 反而自主構建了一個涉及 3 個物品和 2 個代理的具體反例 , 并通過繁瑣的期望計算成功反駁了該猜想 。 這是 AI 罕見地在研究者沒有給出明確答案的情況下 , 直接利用真實科研語境否定了一位人類學者(還是谷歌自己人)提出的猜想 。


(來源:Recherche-Research-Google)

借助掌握海量跨學科知識的優勢 , Gemini 在數學領域的難題中另辟蹊徑 , 為算法難題提供頗具創新性的幾何解法 。 最大割(Max-Cut)是一個圖論問題 , 旨在尋找一種分割方式 , 使被切斷的連接線數量最大 , 這也是網絡流和芯片設計中常用的基礎算法之一 。

為解決其中關于近似算法精度的一個長期開放問題 , Gemini 跳出了傳統的組合優化思路 , 將其重構為一個幾何泛函分析問題 , 并創造性地建議應用斯通-魏爾斯特拉斯(Stone-Weierstrass)定理(一項關于函數逼近的數學定理)來建立必要的方差界限 。


(來源:Google Research)

在計算幾何領域中 , 針對斯坦納樹問題(如何以最短路徑連接多個點) , 存在一個關于“單純形是最佳圖嵌入結構”的猜想 。 Gemini 發現 , 解決問題的關鍵實際在于希爾伯特空間映射中的基爾斯布勞恩(Kirszbraun)擴展定理 , 這個定理通常用于分析函數的平滑性(Lipschitz 連續性) , 人類研究者此前往往認為它過于深奧而不予考慮 。 但 Gemini 正是借助這一晦澀的數學工具 , 成功完成了從任意圖嵌入到星形圖嵌入的形式化映射證明 。


(來源:Google Research)

類似地 , 正則二分圖常用于通信網絡建模 , 為改進其完美匹配數量下界 , Gemini 綜合運用了統計物理中的貝特(Bethe)近似、數論中的互質整數分析以及譜圖理論中的伊原-巴斯(Ihara-Bass)恒等式 , 給出了比施賴弗(Schrijver)界限更強的理論結果 。

涉及復雜運算和算法優化的學科時 , Gemini 展現出驚人的“精算師”與“優化師”能力 。 在理論天體物理學中 , 科學家試圖通過引力波探測宇宙大爆炸后的遺跡——宇宙弦 。 然而 , 預測其引力輻射涉及一個極度振蕩且具有嚴重奇點的球面積分計算 , 這是該領域的一個長期難題 。

為此 , 研究團隊構建了一個神經符號系統 , Gemini 在其中推導數學公式 , 并編寫 Python 代碼與數值基準進行比對 。 通過這種反饋循環 , AI 自主發現了六種不同的解析路徑 , 最終結合蓋根鮑爾(Gegenbauer)多項式展開 , 為這一難題推導出一個精確的閉式解 。

在大數據處理中 , 如何在有限的內存中從海量數據流里篩選出最有價值的信息(次模函數最大化)是一個核心問題 , Gemini 敏銳地發現 , 現有分析中存在一個潛在自由度:算法中的閾值參數不應是全局固定的 , 而應根據處理狀態動態調整 。

通過引入狀態依賴閾值 , AI 推導并證明出一個優化的遞推關系 , 將算法的近似比從約 0.55 精確提升到了 2-√2 。 同時 , 在流算法的香農熵(Shannon Entropy)估計中 , AI 觀察到 , 算法其實只需依賴低階矩 , 從而避開了高方差區域 , 這一洞察直接將內部狀態變化的復雜度界限從多項式級大幅優化至多對數級別 。

此外 , 論文還證實 , Gemini 已經有能力重塑論文寫作的全流程 , 甚至出現了“代碼化”論文寫作的趨勢 。 例如 , 在理論計算機科學領域 , 著名的復雜性理論專家、Computational Complexity 博客博主蘭斯·福特諾(Lance Fortnow)嘗試使用集成了 AI 的 IDE 開發環境 , 通過高層級的提示進行“氛圍編程”(Vibe-coding) 。

當對復雜性類 SP2(涉及博弈論與計算復雜性)進行研究時 , Gemini 不僅可在幾乎沒有人工干預的情況下 , 自主生成關于搜索問題與決策問題等價性的主要證明 , 被指出推論中的假設錯誤后 , 還迅速將證明策略修正為歸約法 , 幾乎獨立完成了一篇高質量理論論文的初稿 。

論文還在更多學科中考驗了 Gemini 解決實際難題的能力 。 如在機制設計領域 , AI 幫助將原論文中基于有理數報價的結論推廣到了實數域 , 利用拓撲學和序理論替代了原有的計數性論證 。

在信息論領域 , AI 通過分析優化圖景和利用超壓縮性不等式(Hypercontractivity) , 對著名的庫爾塔德-庫馬爾(Courtade-Kumar)猜想做出了實質性貢獻 , 包括將其推廣到非平衡函數以及改進了高噪聲區間的界限 。

這一系列成果表明 , 前沿 AI 模型已經具備了在理論科學中進行實質性貢獻的能力 , 而非簡單的輔助工具 。 它不僅能優化算法、推導公式 , 還能跨越學科壁壘 , 甚至從人類專家的盲點區域找到新的可能性 。

然而 , 論文也強調 , 目前的這種成功仍高度依賴于人類專家的“腳手架”支持和嚴格驗證 , 類似于目前已廣為人知的“Vibe-coding” , 這種人機協作模式被形象地稱為“Vibe-proving”——即利用 AI 的直覺生成證明草稿 , 再由人類進行嚴格審查 。

為了徹底解決模型可能產生的幻覺問題 , 未來的研究方向將是用利用 Lean 或 Coq 等交互式定理證明器 , 將 AI 生成的非形式化數學推導轉化為絕對嚴謹的形式化證明 , 從而在根本上保證科學發現的正確性 , 甚至有望得到同行評審的信任 。

參考資料:
https://arxiv.org/pdf/2602.03837

【Gemini聯手頂尖學者破解理論科學難題:推翻人類學者的假設】排版:劉雅坤

    推薦閱讀