Nature認定的論文綜述神器來了

Nature認定的論文綜述神器來了

文章圖片

Nature認定的論文綜述神器來了

文章圖片

Nature認定的論文綜述神器來了

文章圖片


聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
AI寫論文這事兒確實不新鮮了 , 但天下苦假引用久矣 。
以往咱用大模型寫個綜述 , 看著像模像樣的 , 結果一查參考文獻——
好家伙 , 論文不存在、期刊不存在、作者也不存在(扶額) 。
現在不用愁了 , Nature新發表了一篇研究 , 艾倫人工智能研究所(Ai2)和華盛頓大學開源了一個叫OpenScholar的AI系統 , 寫文獻綜述絕不瞎編 。

背靠整整4500萬篇科學論文庫 , 直接把GPT-4o那種78%-90%的虛假引用率給干翻了 。
那么問題來了 , 大家都在編 , OpenScholar為啥不編?
自我反饋推理其實主要還是因為LLM的底層邏輯就是預測下一個詞出現的概率 。
當你問它一個非常生僻的學術問題時 , 它為了維持語言的連貫性以及“我無所不知”的人設——
會強行根據語料庫里的作者名、期刊名、標題關鍵詞 , 拼湊出一個看起來最像真論文的…幻覺產物 。
還有 , 通用AI缺乏事實錨點 , 讀過萬卷書結果全記串了 。
張教授寫過超導 , 李教授寫過材料 , 當你問它超導材料時 , 它能面不改色地給你編出一篇《張教授與李教授關于超導材料的巔峰對話》……
這種由于訓練數據截斷以及缺乏真實文獻驗證機制導致的假引用 , 真的太太太離譜了!

OpenScholar就不一樣了 , 不再拍腦門預測下一個詞 , 直接接入了一個名為ScholarStore的龐大數據庫 。
這是目前公開的最大科學領域段落索引 , 全開源可下載 , 任何人都能本地部署或者擴展 。
里面實打實地存了4500萬篇論文的全文和摘要 , 再通過RAG技術 , 讓每個知識點都背靠一篇真實存在的論文 。
當你拋出一個科研難題 , 它會先在那個擁有2.37億個向量嵌入的超大數據庫里瘋狂檢索 , 把相關的論文片段全翻出來 。
給出初稿之后 , 帶著生成的“這里缺少討論”“這里引文不準”“需要補搜最新進展”等反饋再檢索、再改稿 , 通過搜索、生成、自我審查、再搜索、再修正這套閉環 , 反復確認輸出的內容是不是真有論文支撐 。
這樣一來顯著降低了幻覺 , 提高了輸出內容的覆蓋度和引文精度 , 整個管道還會被用來生成高質量合成數據 , 反哺訓練 。

有多強? 【Nature認定的論文綜述神器來了】但是!如果只是搜得準 , 那它充其量是個高級搜索引擎 , OpenScholar不止如此 。
它在知識合成的深度上 , 已經開始正面硬剛人類專家了 。
研發團隊整了個叫Scholar QABench的測試集 , 涵蓋了計算機科學、物理、生物醫藥等最吃邏輯的領域 , 由3000個問題和250個長篇專家答案構成 。
在自動測評上 , OpenScholar-8B這個體量不算大的模型 , 在正確性上GPT-4o高出5% , 比專業的PaperQA2也高出7% , 引文準確度和人類專家持平 。

團隊還搞了個“人機大戰”雙盲實驗 , 把AI寫的答案和實打實的博士、研究員寫的答案放一起 , 然后讓另一群頂級科學家來盲評打分 。
16位專家兩兩對比了108份學術答案 。 結果顯示 , OpenScholar-8B的回答有51%比人類研究者親手寫的更好 , 升級組合版的OpenScholar-GPT4o勝率更是沖到70% , 而普通GPT-4o只有32% 。
評審專家們普遍反饋 , OpenScholar的優勢集中在信息覆蓋更全面、結構更清晰、邏輯連貫性更強 , 實用價值也更高 。
作者團隊這篇研究的一作Akari Asai是艾倫人工智能研究所研究科學家 , 2026年秋起將任卡內基梅隆大學助理教授 。
在此之前她獲得了東京大學電氣工程與計算機科學專業的學士學位 , 后在華盛頓大學完成博士學業 , 研究聚焦于自然語言處理和機器學習 , 尤其側重于大型語言模型 。

Jacqueline He目前在華盛頓大學讀自然語言處理專業博士 , 本科畢業于普林斯頓大學 , 曾是普林斯頓自然語言處理小組成員 , 主要導師是陳丹琦 。
讀研之前 , 她還擔任過Meta的軟件工程師 。
Rulin Shao本科畢業于西安交通大學 , 取得了數學的學士學位 , 后在卡內基梅隆大學完成了機器學習碩士學位 , 現為華盛頓大學博士生 , 同時也是Meta的訪問研究員 。

團隊的其他作者均來自伊利諾伊大學厄巴納 - 香檳分校、卡內基梅隆大學、Meta、北卡羅來納大學教堂山分校、斯坦福大學等高校和機構 。
論文地址:https://arxiv.org/abs/2411.14199
— 完 —
量子位 QbitAI · 頭條號
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀