一個數據集，一年產稿7876篇，AI強力加持，垃圾論文海量爆發

2026-04-27 aoc

文章圖片

【導讀】當學術研究淪為「填空游戲」，利用美國NHANES公共數據集，結合AI工具如ChatGPT ，研究者通過套用模板、排列變量，批量生產看似精美卻質量堪憂的論文。背后不僅是技術的濫用，更是科研評價體系扭曲的縮影。
假如你是一位科研期刊的編輯，每天打開郵箱，迎接的卻是一堆似曾相識的論文。
它們主題各異，數據整齊，措辭流暢，但總有種讓人不安的「模板感」。
這可不是一個瞎編的場景，而是2024年發生在《Scientific Reports》編輯Matt Spick身上的真實經歷。
作為英國薩里大學的統計學家，他發現大量論文像流水線產品般涌來，全部基于美國國家健康與營養檢查調查（NHANES）這一公共數據集。
「我收到的幾乎一模一樣的論文太多了，有時一天一篇，有時兩天三篇，」Spick無奈地說，「這不太對勁」。
近日， Science網站的一篇文章詳細詳細描述了這個事實。
文章地址：https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai
Spick發現，他所在期刊遇到的問題只是冰山一角。
這些論文并非孤立現象，而是席卷全球學術界的一場「科研填空游戲」。
上周，他與同事在《PLOS Biology》雜志上發表的研究指出，近年來，使用NHANES的低質量論文數量激增。
【一個數據集，一年產稿7876篇，AI強力加持，垃圾論文海量爆發】論文地址：https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3003152

NHANES的「魔力」與「陷阱」NHANES是一個龐大的公共數據集，涵蓋了超過13萬人的健康檢查、血液檢測和飲食信息。
它的開放性讓研究者可以輕松挖掘數據，探索健康與疾病的關系。
然而，這種便利也成了雙刃劍。
Spick發現，這些NHANES論文遵循一個簡單的「公式」：選擇一種健康狀況（比如抑郁癥）、一個可能相關的環境或生理因素（比如維生素D水平），再限定一個人群（比如65歲以上男性）。通過排列組合，研究者能迅速生成「新發現」。
「感覺好像所有可能的組合都被人研究過了」Spick說。
西北大學的元科學家Reese Richardson將其形象地稱之為「科研填空游戲」。
他提到，其他研究者在不少領域也發現了類似的「爆發式增長」，比如基因研究、文獻計量分析，還有不同科學學科里的性別差異研究。
為了量化這一現象， Spick團隊在PubMed和Scopus兩大數據庫中搜索基于NHANES的單變量關聯研究。
他們在147種期刊中發現了341篇這樣的論文，包括《Scientific Reports》、《BMC Public Health》及《BMJ Open》。
結果令人震驚：2014年至2021年，這類論文年均僅4篇，但2022年起數量激增， 2024年截至10月已達190篇，遠超其他大型健康數據集研究的增長速度。
更令人擔憂的是，其中的許多論文選擇性地分析數據，比如只用某些年份或年齡段的數據，缺乏明確理由。
這背后往往是「p值狩獵」——通過反復嘗試找到統計上顯著的結果，哪怕這些結果可能是虛假的。
以抑郁癥相關研究為例， Spick團隊分析了28篇NHANES論文，發現在對多重檢驗結果進行假發現率（FDR）校正后，僅有 13 項關聯仍保持統計學顯著性。
這意味著一半以上的「發現」可能是統計噪聲，而非真相。
Spick和他的團隊甚至認為，他們的分析可能還大大低估了問題的嚴重性。
他們的搜索只針對符合Spick模式的NHANES研究，更廣泛的搜索發現，使用NHANES數據集的論文從2023年的4926篇激增到2024年的7876篇。
Spick還指出，其他大型健康數據集，比如全球疾病負擔研究，同樣可能存在類似漏洞。

AI與論文工廠的「共謀」為什么NHANES論文會在2022年后井噴？
答案指向了一個時間點：AI工具如ChatGPT的廣泛普及。
這些工具能根據簡單指令生成流暢文本，甚至通過改寫來逃避抄襲檢測。
悉尼大學的分子生物學家Jennifer Byrne在審稿時指出，這種論文的「規模和時機」讓人懷疑背后有協調運作，論文工廠（paper mills）可能是幕后推手。
論文工廠是專門出售論文署名權的商業機構。它們利用AI快速生成論文框架，再結合NHANES等公共數據集的便利性，生產出看似合法的論文。
Spick團隊甚至編寫了一段簡單的Python代碼，就能從NHANES中提取數據并「批量生成」疾病與健康變量的組合。
這種「工業化」生產模式讓低質量論文如洪水般涌入學術期刊。
「老實說，這讓我氣得跳腳。」Spick表示。
哲學家Hannah Arendt曾提出「平庸之惡」的概念，形容那些在體制下機械執行惡行的行為。
今天的論文工廠何嘗不是一種「平庸之惡」？它們未必有意破壞科學，但機械化的論文生產，悄然侵蝕了學術的根基。

扭曲之鏡這場「科研填空游戲」的根源不僅在于技術和數據，還在于學術生態的扭曲。
Richardson一針見血地指出：「所有被點名的期刊都收取了約1000美元的發表費用，來刊登這些垃圾論文。」
開放獲取期刊（如《PLOS Biology》）通過作者付費實現免費閱讀，但這也讓一些期刊更看重數量而非質量。
更深層的問題是科研評價體系。
許多高校和機構以論文數量作為晉升和資助的主要標準，而非論文的質量或影響力。
在「發表即成功」的文化下，研究者只能制造出更多論文，哪怕這些論文毫無意義。
但當科研變成填空游戲，研究者很難從中找到意義。相反，他們被困在一個循環中：不斷生產「成果」，即使這些成果可能只是學術垃圾。
當論文成為KPI ，科學便從探索真理淪為數字游戲。

破局之道這場危機并非無解。
Spick建議，期刊應加強對NHANES等公共數據集論文的審查，比如要求作者明確數據選擇的理由，并進行更嚴格的統計校正。 Byrne則呼吁開發更智能的檢測工具，以識別AI生成的文本。
更根本的改變需要重塑學術激勵機制。
Richardson警告：「除非我們徹底改革科研發表的激勵模式，否則問題只會更糟」。
這場「科研填空游戲」更像是一面鏡子，映照出技術進步與學術倫理的碰撞。
AI和公共數據集本應是科學的加速器，卻在扭曲的激勵下成了垃圾論文的溫床。
參考資料：
https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai

推薦閱讀

上一篇：高考數學斬獲139分！小米7B模型比肩Qwen3-235B、OpenAI o3

下一篇：20瓦就能運行下一代AI？科學家瞄上了神經形態計算