一個數據集,一年產稿7876篇,AI強力加持,垃圾論文海量爆發

一個數據集,一年產稿7876篇,AI強力加持,垃圾論文海量爆發

文章圖片


【導讀】當學術研究淪為「填空游戲」 , 利用美國NHANES公共數據集 , 結合AI工具如ChatGPT , 研究者通過套用模板、排列變量 , 批量生產看似精美卻質量堪憂的論文 。 背后不僅是技術的濫用 , 更是科研評價體系扭曲的縮影 。
假如你是一位科研期刊的編輯 , 每天打開郵箱 , 迎接的卻是一堆似曾相識的論文 。
它們主題各異 , 數據整齊 , 措辭流暢 , 但總有種讓人不安的「模板感」 。
這可不是一個瞎編的場景 , 而是2024年發生在《Scientific Reports》編輯Matt Spick身上的真實經歷 。
作為英國薩里大學的統計學家 , 他發現大量論文像流水線產品般涌來 , 全部基于美國國家健康與營養檢查調查(NHANES)這一公共數據集 。
「我收到的幾乎一模一樣的論文太多了 , 有時一天一篇 , 有時兩天三篇 , 」Spick無奈地說 , 「這不太對勁」 。
近日 , Science網站的一篇文章詳細詳細描述了這個事實 。
文章地址:https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai
Spick發現 , 他所在期刊遇到的問題只是冰山一角 。
這些論文并非孤立現象 , 而是席卷全球學術界的一場「科研填空游戲」 。
上周 , 他與同事在《PLOS Biology》雜志上發表的研究指出 , 近年來 , 使用NHANES的低質量論文數量激增 。
【一個數據集,一年產稿7876篇,AI強力加持,垃圾論文海量爆發】論文地址:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3003152

NHANES的「魔力」與「陷阱」NHANES是一個龐大的公共數據集 , 涵蓋了超過13萬人的健康檢查、血液檢測和飲食信息 。
它的開放性讓研究者可以輕松挖掘數據 , 探索健康與疾病的關系 。
然而 , 這種便利也成了雙刃劍 。
Spick發現 , 這些NHANES論文遵循一個簡單的「公式」:選擇一種健康狀況(比如抑郁癥)、一個可能相關的環境或生理因素(比如維生素D水平) , 再限定一個人群(比如65歲以上男性) 。 通過排列組合 , 研究者能迅速生成「新發現」 。
「感覺好像所有可能的組合都被人研究過了」Spick說 。
西北大學的元科學家Reese Richardson將其形象地稱之為「科研填空游戲」 。
他提到 , 其他研究者在不少領域也發現了類似的「爆發式增長」 , 比如基因研究、文獻計量分析 , 還有不同科學學科里的性別差異研究 。
為了量化這一現象 , Spick團隊在PubMed和Scopus兩大數據庫中搜索基于NHANES的單變量關聯研究 。
他們在147種期刊中發現了341篇這樣的論文 , 包括《Scientific Reports》、《BMC Public Health》及《BMJ Open》 。
結果令人震驚:2014年至2021年 , 這類論文年均僅4篇 , 但2022年起數量激增 , 2024年截至10月已達190篇 , 遠超其他大型健康數據集研究的增長速度 。
更令人擔憂的是 , 其中的許多論文選擇性地分析數據 , 比如只用某些年份或年齡段的數據 , 缺乏明確理由 。
這背后往往是「p值狩獵」——通過反復嘗試找到統計上顯著的結果 , 哪怕這些結果可能是虛假的 。
以抑郁癥相關研究為例 , Spick團隊分析了28篇NHANES論文 , 發現在對多重檢驗結果進行假發現率(FDR)校正后 , 僅有 13 項關聯仍保持統計學顯著性 。
這意味著一半以上的「發現」可能是統計噪聲 , 而非真相 。
Spick和他的團隊甚至認為 , 他們的分析可能還大大低估了問題的嚴重性 。
他們的搜索只針對符合Spick模式的NHANES研究 , 更廣泛的搜索發現 , 使用NHANES數據集的論文從2023年的4926篇激增到2024年的7876篇 。
Spick還指出 , 其他大型健康數據集 , 比如全球疾病負擔研究 , 同樣可能存在類似漏洞 。

AI與論文工廠的「共謀」為什么NHANES論文會在2022年后井噴?
答案指向了一個時間點:AI工具如ChatGPT的廣泛普及 。
這些工具能根據簡單指令生成流暢文本 , 甚至通過改寫來逃避抄襲檢測 。
悉尼大學的分子生物學家Jennifer Byrne在審稿時指出 , 這種論文的「規模和時機」讓人懷疑背后有協調運作 , 論文工廠(paper mills)可能是幕后推手 。
論文工廠是專門出售論文署名權的商業機構 。 它們利用AI快速生成論文框架 , 再結合NHANES等公共數據集的便利性 , 生產出看似合法的論文 。
Spick團隊甚至編寫了一段簡單的Python代碼 , 就能從NHANES中提取數據并「批量生成」疾病與健康變量的組合 。
這種「工業化」生產模式讓低質量論文如洪水般涌入學術期刊 。
「老實說 , 這讓我氣得跳腳 。 」Spick表示 。
哲學家Hannah Arendt曾提出「平庸之惡」的概念 , 形容那些在體制下機械執行惡行的行為 。
今天的論文工廠何嘗不是一種「平庸之惡」?它們未必有意破壞科學 , 但機械化的論文生產 , 悄然侵蝕了學術的根基 。

扭曲之鏡這場「科研填空游戲」的根源不僅在于技術和數據 , 還在于學術生態的扭曲 。
Richardson一針見血地指出:「所有被點名的期刊都收取了約1000美元的發表費用 , 來刊登這些垃圾論文 。 」
開放獲取期刊(如《PLOS Biology》)通過作者付費實現免費閱讀 , 但這也讓一些期刊更看重數量而非質量 。
更深層的問題是科研評價體系 。
許多高校和機構以論文數量作為晉升和資助的主要標準 , 而非論文的質量或影響力 。
在「發表即成功」的文化下 , 研究者只能制造出更多論文 , 哪怕這些論文毫無意義 。
但當科研變成填空游戲 , 研究者很難從中找到意義 。 相反 , 他們被困在一個循環中:不斷生產「成果」 , 即使這些成果可能只是學術垃圾 。
當論文成為KPI , 科學便從探索真理淪為數字游戲 。

破局之道這場危機并非無解 。
Spick建議 , 期刊應加強對NHANES等公共數據集論文的審查 , 比如要求作者明確數據選擇的理由 , 并進行更嚴格的統計校正 。 Byrne則呼吁開發更智能的檢測工具 , 以識別AI生成的文本 。
更根本的改變需要重塑學術激勵機制 。
Richardson警告:「除非我們徹底改革科研發表的激勵模式 , 否則問題只會更糟」 。
這場「科研填空游戲」更像是一面鏡子 , 映照出技術進步與學術倫理的碰撞 。
AI和公共數據集本應是科學的加速器 , 卻在扭曲的激勵下成了垃圾論文的溫床 。
參考資料:
https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai

    推薦閱讀