AI科學家登上Nature,論文從構思到發表全自動化,一篇已通過評審

AI科學家登上Nature,論文從構思到發表全自動化,一篇已通過評審

文章圖片

AI科學家登上Nature,論文從構思到發表全自動化,一篇已通過評審

文章圖片

AI科學家登上Nature,論文從構思到發表全自動化,一篇已通過評審

幾小時前 , Nature 宣布了真正意義上的 AI 科學家的首次實現 。 由“Transformer 八子”之一聯合創辦的日本 Sakana AI 與英國牛津大學、英屬哥倫比亞大學的研究團隊打造了一個從零開始搞科研的 AI , 實現了從構思到論文發表的完整端到端自動化 , 并有 AI 論文通過國際頂會 ICLR 2025 同行評審 , 這是 AI 科研范式的突破 , 觸及了人類創造力的邊界 。


圖 | 被選中的 AI 論文節?。 ɡ叢矗篽ttps://www.nature.com/articles/s41586-026-10265-5)

值得注意的是 , 來自英國牛津大學的 Chris Lu 和來自英屬哥倫比亞大學的 Cong Lu 是共同一作之一 。


圖 | 從左到右:Chris Lu 和 Cong Lu(來源:資料圖)

研究中 , 他們造出了一個叫 AI 科學家( AI Scientist)的系統 , 從想點子、寫代碼、跑實驗、分析數據 , 到寫論文、自己審稿 , 全由AI自己完成 。

更讓人震驚的是 , 其中一篇完全由AI生成的論文 , 投到了 ICLR 2025 的一個研討會 , 拿到了 6 分、7 分、6 分的評審分數 , 超過了這個研討會平均的錄取線 。 這篇論文如果沒被主動撤稿 , 大概率會被接收 。


(來源:https://www.nature.com/articles/s41586-026-10265-5)

據了解 , AI 科學家的工作流程分成四塊 。

第一步是想點子 。

它被喂進一個研究領域后 , 會自己生成一批研究方向 , 每一條都帶著標題、研究理由、實驗方案 , 還給自己打分 , 有趣程度、新穎程度、可行性 , 1 到 10 分自己評 。 然后它連上 Semantic Scholar 的學術搜索引擎 , 把跟已有工作太像的點子扔掉 。

第二步是做實驗 。

這里分兩種模式 。

第一種是模板模式 , 研究人員先給它一段能跑通的代碼做起點 , 它在這個基礎上想新點子 , 然后叫一個叫 Aider 的代碼助手來改代碼、跑實驗 , 出錯了自己看日志、自己修 , 修好了繼續跑 。

另一種是無模板模式 , 它連起點代碼都沒有 , 得從零開始寫 。 這時候它會搞一個樹形搜索 , 一個點子長出好幾個分支 , 每個分支跑不同參數、不同設置 , 跑完一輪選最好的那個繼續往下走 。 這個過程會并行跑很多個節點 , 誰效果好誰被選中繼續深挖 。
【AI科學家登上Nature,論文從構思到發表全自動化,一篇已通過評審】
第三步是寫論文 。

它把自己實驗里記的筆記、生成的圖表填進一個標準的 LaTeX 模板里 , 一節一節地寫 , 引言、方法、結果、結論 , 全齊 。 要寫相關工作部分的時候 , 它再去查 Semantic Scholar , 把相關的論文找出來 , 然后讀摘要和寫引用 。 寫完還會自己編譯 LaTeX , 報錯了自己改 , 最多可以改五次 , 直到出一份能看的 PDF 。

第四步是自己審稿 。

研究團隊還造了一個自動化審稿器 , 照著 NeurIPS 的審稿指南 , 對論文打分 , 給優點、缺點、倫理問題 , 最后給一個接受或拒絕的建議 。 五份獨立審稿結果匯總 , 再由它自己當領域主席做一個綜合判斷 。

這個自動化審稿器不是隨便做的 , 研究團隊拿它跟真實的人類審稿記錄做了對比 。 他們從 OpenReview 上拿了 ICLR 的論文數據 , 讓自動化審稿器打分 , 結果它的平衡準確率達到 了69% , 跟人類審稿人的 66% 差不多 。

在 F1 分數上 , 它甚至比 NeurIPS 2021 那個著名的審稿一致性實驗里的人類審稿人之間的一致性還高 。 這意味著自動化審稿器打出來的分數 , 跟一個真實的人類審稿專家基本在一個水平線上 。

他們還專門測了數據污染的問題 。 模型訓練時用的數據可能包含 2017 到 2024 年的論文 , 所以他們又拿 2025 年出的新論文測了一遍 , 結果平衡準確率降到了 66% , 仍然和人類審稿人持平 。 這說明自動化審稿器不是靠背答案 , 它其實是真的能夠自己判斷論文質量 。


(來源:https://www.nature.com/articles/s41586-026-10265-5)

研究團隊還發現了一個規律 , AI 科學家生成的論文質量 , 跟它底下用的基礎模型強相關 。 他們用不同時間發布的模型跑同一套流程 , 從較老的模型到最新的模型 , 生成的論文評分一直在漲 。 這說明隨著基礎模型越來越強 , AI 科學家寫出來的論文也會越來越接近人類水平 。

同時 , 給 AI 科學家分配的計算資源越多 , 它寫出來的論文質量也越高 。 這有點像給一個研究生更多時間做實驗 , 最后成果也會更好 。 這兩個趨勢加在一起 , 意味著未來 AI 科學家的能力會隨著模型升級和算力增長持續提升 。


(來源:Nature)

被研討會評審看上的那篇論文 , 研究的是深度學習里的一個負向結果 , 正好契合那個叫 ICBINB 的研討會主題 。 這篇論文由AI科學家在無模板模式下生成 , 從頭到尾沒有人類修改過 。 它從選題、設計實驗、跑代碼、出圖表、寫 LaTeX , 全部是自己完成的 。

研究團隊一共投了三篇 , 只有這一篇過了線 , 另外兩篇沒達標 。 這說明 AI 科學家目前還不是每次都能寫出高質量論文 , 但這明確證明 AI 寫出來的東西已經能騙過人類審稿人 , 讓它以為自己是在審一個人類研究生的作業 。

當然 , AI 科學家現在還遠不夠完美 。 它偶爾會想出很幼稚的點子 , 方法論不夠嚴謹 , 寫代碼時會出各種 bug , 還會產生幻覺 , 比如引文明明是錯的它硬說對 , 或者附錄里把同一張圖放兩遍 。

不過 , 研究團隊發現在機器學習這個領域 , 很多技術剛出現時都不完美 , 甚至漏洞百出 , 但只要它能讓做出來這件事本身成立 , 后續通過擴大規模、更好的模型、更優的技術 , 這項能力就會迅速提升 , 進而很快超越人類水平 。

總的來說 , 這項工作的意義遠遠不止讓 AI 寫幾篇論文 , 它把整個科研流程從頭到尾連起來了 , 從想點子到做實驗到寫論文到審稿 , 全在計算機里跑通 。

未來可以用 AI 來加速科研 , 比如在藥物發現、材料設計、氣候建模這些領域 , 讓 AI 科學家 7×24 小時地跑實驗、試方向 , 而人類科學家只需要在關鍵節點做判斷和選擇 。

同時 , 研究團隊在論文最后也提到了風險 , 比如AI論文洪流可能會壓垮現有的審稿系統 , 或者有人拿 AI 灌水、批量發假論文 。 所以他們主動把投出去的論文撤回來了 , 也在所有生成的論文里加了水印 , 方便識別 。 他們還建議學術界盡快建立規范 , 告訴人們 AI 寫的論文應該怎么標注和怎么對待 。

參考資料:
相關論文https://www.nature.com/articles/s41586-026-10265-5
https://www.linkedin.com/in/chris-lu-37471b119/
https://chrislu.page/
https://www.linkedin.com/in/cong-lu-530b74104/
https://www.conglu.co.uk/
https://sakana.ai/ai-scientist-nature/

運營/排版:何晨龍

    推薦閱讀