一夜200萬閱讀，OpenAI神同步！這項測評框架讓全球頂尖LLM全翻車

2026-04-04 央企 erp 中國聯通

文章圖片

文章圖片

文章圖片

編輯：Aeneas
【新智元導讀】這篇中國團隊領銜發布的論文，已經在外網刷屏了，僅一夜閱讀就達到了200萬！這位MIT博士回國創業后組建的團隊，拉來全球24所頂級機構，給AI如何助力科學發現來了一劑猛藥。

最近，一篇由中國團隊領銜全球24所TOP高校機構發布，用于評測LLMs for Science能力高低的論文，在外網炸了！
當晚， Keras （最高效易用的深度學習框架之一）締造者Fran?ois Chollet轉發論文鏈接，并喊出：「我們迫切需要新思路來推動人工智能走向科學創新。」

AI領域KOL Alex Prompter分享論文核心摘要后， NBA獨行俠隊老板Mark Cuban跟帖轉發，硅谷投資人、歐洲家族辦公室、體育媒體同時涌進評論區。

僅一夜，累計閱讀量逼近200萬。
值得一提的是，同一時間窗里， OpenAI也發布了對于AI在科學發現領域能力評測的論文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述，指出現有評測標準在AI for Science領域失靈。

神同步OpenAI、海外討論出圈，究竟是什么樣的一份工作成果，攪動了全球AI輿論?。 ?

AI距離可以助力科學發現，還有多遠？
前段時間，美國推出「創世紀計劃」，號稱要調動「自阿波羅計劃以來最大規模的聯邦科研資源」，目標是在十年內將美國科研的生產力和影響力翻倍。
但在人工智能估值泡沫隱現、能耗與產出比飽受質疑的當下，一面是資本的狂歡，另一面卻是AI能力困于「文生圖」等表層應用的尷尬；一面是各類大語言模型頻繁霸榜GPQA、MMMU等題庫式Benchmark的層出不窮，另一面卻是現有LLMs還無法準確解析簡單核磁圖譜的尷尬現狀。
人們不禁要問：能在題庫拿高分，就能助力科學發現嗎？現在的模型距離科學發現還有多遠？究竟什么樣的AI模型可以勝任，拓寬人類的生存邊界？這些討論，在中美AI競爭白熱化的當下變得愈發濃烈。
在此背景下，由中國AI for Science領域的初創企業「深度原理Deep Principle」領銜麻省理工學院、哈佛、普林斯頓、斯坦福、劍橋、牛津等全球24所科研院校共同發布的《Evaluating LLMs in Scientific Discovery》論文，正式回答該時代之問。
論文推出了LLMs for Science首套評測體系SDE（Scientific Discovery Evaluation），從科學問題到研究項目，對GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等全球主流大語言模型在生物、化學、材料、物理領域的科學研究與發現能力完成摸底。

同以往評測體系不同的是， SDE對模型能力的考量，從簡單的問答式，引向了具體的「假設->實驗->分析」實驗場景。
研究發現， GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均準確率 50–70% ，遠低于它們在GPQA、MMMU等題庫上的80–90%；在86道「SDE-Hard」難題中，最高分不足12% ，共同暴露出多步推理、不確定性量化和實驗-理論閉環的短板。
更值得警惕的是，模型規模與推理能力的提升已呈現明顯的「邊際效益遞減」。
GPT-5相較于前一代模型，參數規模和推理算力顯著增加，但在SDE基準的四大科學領域中，平均準確率僅提升3%-5% ，部分場景（如NMR結構解析）甚至出現性能下滑。
換句話說，當前大語言模型在推動科學發現方面的表現，還不如一個普通的本科生。

能領銜24所頂尖科研院校發布
【一夜200萬閱讀，OpenAI神同步！這項測評框架讓全球頂尖LLM全翻車】背后團隊是誰？
《Evaluating LLMs in Scientific Discovery》論文通訊作者段辰儒，是「深度原理Deep Principle」創始人兼CTO 。
早在2021年，在MIT攻讀化學博士期間，他就已在圖靈獎得主Yoshua Bengio的支持下，發起了AI for Science社區的建立，并在NeurIPS上舉辦AI for Science workshop 。
2024年初，他與MIT物理化學博士賈皓鈞回國，共同創立「深度原理Deep Principle」。賈皓鈞任CEO ，段辰儒任CTO ，兩人雖為95后，但已在全球AI for Science創業領域小有名氣。
創業一年半以來，其已獲得線性資本、高瓴創投、螞蟻集團等多家知名機構的投資，且與晶泰科技、深勢科技等AI for Science領域的知名企業建立戰略合作關系。
「深度原理Deep Principle」從創立之初，就帶著全球AI for Science頭部研究者們的期待。目前「深度原理Deep Principle」已深入全球材料研發中的第一線，將生成式人工智能同量子化學結合起來，致力于推動材料發現等領域進入新紀元。
在過去的一年中，他們在Nature大子刊和JACS等頂級期刊上不斷扔出重磅成果，宣告著他們的技術領先和開放交流的「95后創業公司」心態。
從開拓擴散生成模型（Diffusion Models）在化學反應的生成，證明「不止要生成材料，更需要生成材料的合成路徑」，到機器學習勢（Machine Learning Potentials MLPs）和擴散生成模型的直接對比，證明傳統的機器學習勢不是「萬能」的，再到現在組織各大頂級學者和高校推出SDE ，證明傳統一問一答的Benchmark不能帶領我們走向科學超級智能，精準切入AI for Science領域的核心沖突。
但同時，對于所有的AI4S公司而言，在商業真金白銀的檢驗中， AI能否真正解決新產品研發問題、滿足客戶期待，是日復一日必須面對的拷問。
隨著與行業頭部客戶的商業化合作落地，「深度原理Deep Principle」的數據庫中已經匯聚了來源于客戶與自己實驗室、大量來自第一線的真實工業研發場景數據和模型應用經驗。
學術圈的深耕與在AI for Science商業化第一線的積累，讓「深度原理Deep Principle」在提出要構建一把新尺子評測LLMs for Science能力時，一呼百應，搖來了23家全球TOP科學發現機構的50余位科學家，成立了制定SDE的「夢之隊」。
這其中，不乏活躍在LLM領域的大牛學者們，比如：

孫歡（Huan Sun）， MMMU發起人，俄亥俄州立教授
杜沅豈（Yuanqi Du），康奈爾博士， AI4Science 社區「運營大管家」
王夢迪，普林斯頓最年輕教授， AI+Bio Safety先驅者
Philippe Schwaller ， IBM RXN之父， EPFL教授

而「深度原理Deep Principle」前期積累的科學發現場景，成為了后來SDE評測體系的前身。
在經歷近9個月的跨高?？鐚W科跨時區的協作后，《Evaluating LLMs in Scientific Discovery》論文正式發布，通訊單位赫然寫著：深度原理，杭州，中國。

自此，匯聚著全球頂級科學發現機構的集體智慧，來自中國的創業團隊「深度原理Deep Principle」，和大洋彼岸的OpenAI ，同時站在了向AI for Science——這一人類通往終極AGI頂峰攀登的起跑線。
或許千百年后，當人類回望AGI時代，在21世紀的四分之一結束的當口，這場由中美團隊共同呼應的，對于AI for Science的嚴肅討論，把LLMs在各類問答式榜單上的內卷，向真正科學發現的星辰大海推近了一步。
「深度原理Deep Principle」與20多所機構的50多位合作者的研究證明了，目前LLM的發展路徑并不能「順便攻克」科學發現。
這條通往科學超級智能之路，需要更多有識之士共同并肩而行。

推薦閱讀

上一篇：HBM4不用等混合鍵合了

下一篇：三星5G基帶芯片成功打入特斯拉供應鏈