一夜200萬閱讀,OpenAI神同步!這項測評框架讓全球頂尖LLM全翻車

一夜200萬閱讀,OpenAI神同步!這項測評框架讓全球頂尖LLM全翻車

文章圖片

一夜200萬閱讀,OpenAI神同步!這項測評框架讓全球頂尖LLM全翻車

文章圖片

一夜200萬閱讀,OpenAI神同步!這項測評框架讓全球頂尖LLM全翻車

文章圖片

一夜200萬閱讀,OpenAI神同步!這項測評框架讓全球頂尖LLM全翻車
編輯:Aeneas
【新智元導讀】這篇中國團隊領銜發布的論文 , 已經在外網刷屏了 , 僅一夜閱讀就達到了200萬!這位MIT博士回國創業后組建的團隊 , 拉來全球24所頂級機構 , 給AI如何助力科學發現來了一劑猛藥 。


最近 , 一篇由中國團隊領銜全球24所TOP高校機構發布 , 用于評測LLMs for Science能力高低的論文 , 在外網炸了!
當晚 , Keras (最高效易用的深度學習框架之一)締造者Fran?ois Chollet轉發論文鏈接 , 并喊出:「我們迫切需要新思路來推動人工智能走向科學創新 。 」

AI領域KOL Alex Prompter分享論文核心摘要后 , NBA獨行俠隊老板Mark Cuban跟帖轉發 , 硅谷投資人、歐洲家族辦公室、體育媒體同時涌進評論區 。

僅一夜 , 累計閱讀量逼近200萬 。
值得一提的是 , 同一時間窗里 , OpenAI也發布了對于AI在科學發現領域能力評測的論文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述 , 指出現有評測標準在AI for Science領域失靈 。

神同步OpenAI、海外討論出圈 , 究竟是什么樣的一份工作成果 , 攪動了全球AI輿論?。 ?

AI距離可以助力科學發現 , 還有多遠?
前段時間 , 美國推出「創世紀計劃」 , 號稱要調動「自阿波羅計劃以來最大規模的聯邦科研資源」 , 目標是在十年內將美國科研的生產力和影響力翻倍 。
但在人工智能估值泡沫隱現、能耗與產出比飽受質疑的當下 , 一面是資本的狂歡 , 另一面卻是AI能力困于「文生圖」等表層應用的尷尬;一面是各類大語言模型頻繁霸榜GPQA、MMMU等題庫式Benchmark的層出不窮 , 另一面卻是現有LLMs還無法準確解析簡單核磁圖譜的尷尬現狀 。
人們不禁要問:能在題庫拿高分 , 就能助力科學發現嗎?現在的模型距離科學發現還有多遠?究竟什么樣的AI模型可以勝任 , 拓寬人類的生存邊界?這些討論 , 在中美AI競爭白熱化的當下變得愈發濃烈 。
在此背景下 , 由中國AI for Science領域的初創企業「深度原理Deep Principle」領銜麻省理工學院、哈佛、普林斯頓、斯坦福、劍橋、牛津等全球24所科研院校共同發布的《Evaluating LLMs in Scientific Discovery》論文 , 正式回答該時代之問 。
論文推出了LLMs for Science首套評測體系SDE(Scientific Discovery Evaluation) , 從科學問題到研究項目 , 對GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等全球主流大語言模型在生物、化學、材料、物理領域的科學研究與發現能力完成摸底 。

同以往評測體系不同的是 , SDE對模型能力的考量 , 從簡單的問答式 , 引向了具體的「假設->實驗->分析」實驗場景 。
研究發現 , GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均準確率 50–70% , 遠低于它們在GPQA、MMMU等題庫上的80–90%;在86道「SDE-Hard」難題中 , 最高分不足12% , 共同暴露出多步推理、不確定性量化和實驗-理論閉環的短板 。
更值得警惕的是 , 模型規模與推理能力的提升已呈現明顯的 「邊際效益遞減」 。
GPT-5相較于前一代模型 , 參數規模和推理算力顯著增加 , 但在SDE基準的四大科學領域中 , 平均準確率僅提升3%-5% , 部分場景(如NMR結構解析)甚至出現性能下滑 。
換句話說 , 當前大語言模型在推動科學發現方面的表現 , 還不如一個普通的本科生 。

能領銜24所頂尖科研院校發布
【一夜200萬閱讀,OpenAI神同步!這項測評框架讓全球頂尖LLM全翻車】背后團隊是誰?
《Evaluating LLMs in Scientific Discovery》論文通訊作者段辰儒 , 是「深度原理Deep Principle」創始人兼CTO 。
早在2021年 , 在MIT攻讀化學博士期間 , 他就已在圖靈獎得主Yoshua Bengio的支持下 , 發起了AI for Science社區的建立 , 并在NeurIPS上舉辦AI for Science workshop 。
2024年初 , 他與MIT物理化學博士賈皓鈞回國 , 共同創立「深度原理Deep Principle」 。 賈皓鈞任CEO , 段辰儒任CTO , 兩人雖為95后 , 但已在全球AI for Science創業領域小有名氣 。
創業一年半以來 , 其已獲得線性資本、高瓴創投、螞蟻集團等多家知名機構的投資 , 且與晶泰科技、深勢科技等AI for Science領域的知名企業建立戰略合作關系 。
「深度原理Deep Principle」從創立之初 , 就帶著全球AI for Science頭部研究者們的期待 。 目前「深度原理Deep Principle」已深入全球材料研發中的第一線 , 將生成式人工智能同量子化學結合起來 , 致力于推動材料發現等領域進入新紀元 。
在過去的一年中 , 他們在Nature大子刊和JACS等頂級期刊上不斷扔出重磅成果 , 宣告著他們的技術領先和開放交流的「95后創業公司」心態 。
從開拓擴散生成模型(Diffusion Models)在化學反應的生成 , 證明「不止要生成材料 , 更需要生成材料的合成路徑」 , 到機器學習勢(Machine Learning Potentials MLPs)和擴散生成模型的直接對比 , 證明傳統的機器學習勢不是「萬能」的 , 再到現在組織各大頂級學者和高校推出SDE , 證明傳統一問一答的Benchmark不能帶領我們走向科學超級智能 , 精準切入AI for Science領域的核心沖突 。
但同時 , 對于所有的AI4S公司而言 , 在商業真金白銀的檢驗中 , AI能否真正解決新產品研發問題、滿足客戶期待 , 是日復一日必須面對的拷問 。
隨著與行業頭部客戶的商業化合作落地 , 「深度原理Deep Principle」的數據庫中已經匯聚了來源于客戶與自己實驗室、大量來自第一線的真實工業研發場景數據和模型應用經驗 。
學術圈的深耕與在AI for Science商業化第一線的積累 , 讓「深度原理Deep Principle」在提出要構建一把新尺子評測LLMs for Science能力時 , 一呼百應 , 搖來了23家全球TOP科學發現機構的50余位科學家 , 成立了制定SDE的「夢之隊」 。
這其中 , 不乏活躍在LLM領域的大牛學者們 , 比如:

  • 孫歡(Huan Sun) , MMMU發起人 , 俄亥俄州立教授
  • 杜沅豈(Yuanqi Du) , 康奈爾博士 , AI4Science 社區「運營大管家」
  • 王夢迪 , 普林斯頓最年輕教授 , AI+Bio Safety先驅者
  • Philippe Schwaller , IBM RXN之父 , EPFL教授
而「深度原理Deep Principle」前期積累的科學發現場景 , 成為了后來SDE評測體系的前身 。
在經歷近9個月的跨高??鐚W科跨時區的協作后 , 《Evaluating LLMs in Scientific Discovery》論文正式發布 , 通訊單位赫然寫著:深度原理 , 杭州 , 中國 。

自此 , 匯聚著全球頂級科學發現機構的集體智慧 , 來自中國的創業團隊「深度原理Deep Principle」 , 和大洋彼岸的OpenAI , 同時站在了向AI for Science——這一人類通往終極AGI頂峰攀登的起跑線 。
或許千百年后 , 當人類回望AGI時代 , 在21世紀的四分之一結束的當口 , 這場由中美團隊共同呼應的 , 對于AI for Science的嚴肅討論 , 把LLMs在各類問答式榜單上的內卷 , 向真正科學發現的星辰大海推近了一步 。
「深度原理Deep Principle」與20多所機構的50多位合作者的研究證明了 , 目前LLM的發展路徑并不能「順便攻克」科學發現 。
這條通往科學超級智能之路 , 需要更多有識之士共同并肩而行 。

    推薦閱讀