反擊AI論文!arXiv每年拒掉2%造假內容,自動化工具加入審核

反擊AI論文!arXiv每年拒掉2%造假內容,自動化工具加入審核

文章圖片

反擊AI論文!arXiv每年拒掉2%造假內容,自動化工具加入審核

文章圖片

反擊AI論文!arXiv每年拒掉2%造假內容,自動化工具加入審核

文章圖片

反擊AI論文!arXiv每年拒掉2%造假內容,自動化工具加入審核

文章圖片


鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
AI生成論文泛濫成災 , arXiv平臺看不下去了——
緊急升級審核機制 , 用自動化工具來檢測AI生成內容 。
Nature最新發現 , 原來每年竟然都有2%的論文會因為AI使用被拒?!
比如像 , bioRxiv和medRxiv每天都要拒絕十多篇公式化AI手稿 , 每個月就高達7000多份 。

本來是方便快速分享成果的預印本平臺 , 現已成為了AI內容的溫床 。
一方面AI寫作泛濫成災 , 另一方面又要確保不會誤傷到合理的AI英語潤色需求 。
兩難之間 , 預印本平臺也是出手整頓了…….

不過這件事還得從一篇離譜的預印本論文說起 。
AI生成內容泛濫這篇論文題目名為“自我實驗報告:夢境中生成式人工智能界面的出現” , 7月發表在PsyArXiv上 。
乍一看好像沒什么問題 , 直到“不幸”被一名心理學家點開了文檔 。

嚯好家伙 , 整篇論文只有短短幾頁 , 署名還只有作者Jiazheng Liu一個人 , 也沒有注明隸屬機構 。
再仔細看看內容呢 , 所描述的AI實驗更是脫離實際 , 基本可以蓋棺定論用了AI 。
由于沒有明確聲明AI的使用情況 , PsyArxiv也是立即下架刪除了這篇論文 。
結果沒過多久 , 由于預印本審核不嚴 , 該作者再次在PsyArxiv上傳了標題和摘要幾乎一模一樣的預印本 。

另外作者還向Nature附了一封郵件 , 郵件內容表示AI在該論文生成中發揮作用有限 , 只用于數學推導、符號計算、組裝和應用現有數學工具、公式驗證以及另外八項任務 。
他稱自己是常駐中國的獨立研究人員 , 沒有高等教育學位 , 唯一的工具還是臺二手智能手機……當然 , 現在第二個版本也已被刪除 。
不過這也只是眾多AI生成論文中的其中一篇 , 據arXiv估計 , 每年都有約2%的論文 , 因為涉及AI和專門批量造假學術論文的論文工廠 , 而被平臺拒之門外 。

尤其是在ChatGPT推出后 , 這一比例還出現了大幅度增長的情況 , LLM生成了arXiv上22%的計算機科學摘要以及約10%的bioRxiv生物學摘要 。
在一些發表在生物醫學期刊的摘要中 , AI生成也達到了14% 。
PsyArXiv也對此發表了聲明 , 明確表示涉及AI生成的論文內容有所增加 , 對于他們這類降低研究共享門檻的非盈利組織而言 , 越來越多諸如此類的內容 , 只會讓讀者削弱對平臺共享內容的信任程度 。
篩選低質量的內容需要資源支持 , 且會降低論文提交后的處理速度 , 這與預印本平臺致力于讓科學家們更容易發表工作的初心相悖 。
而與此同時 , AI幻覺導致的虛假預印本也會帶來錯誤信息 , 誤導從事相關工作的科研人員 。
如何能夠在保持快速審核的同時 , 確保質量水平 , 現已成為預印本平臺共同的挑戰 。
預印本平臺沒有坐以待斃要知道 , AI論文生成并不能全盤否定 , 許多研究人員會使用AI工具來提高清晰度或者總結數據 , 尤其是對于一些英語非母語的作者 , 他們需要AI協助完成潤色工作 。
這是相當合理的行為 , 并不存在論文欺詐 , 真正值得擔心的是那些完全由AI捏造方法、結果的論文內容 。
但二者之間其實相當難以區分 , 一些預印本平臺 , 如PsyArXiv , 會直接撤下被標記為內容存疑的論文 , 但還有一些平臺考慮到可能會誤傷 , 所以雖然也會將內容標記為“已撤回” , 但在沒有明確法律要求的情況下 , 不會直接進行刪除 。
不過他們也沒有坐以待斃 , 現在會使用各種自動化工具和人工篩選程序來捕捉此類可疑內容 , 如Research Square正在使用一款名為Geppetto的工具來檢測人工智能生成文本的痕跡 。

arXiv也在試圖提高綜述性論文的發表標準 , 因為這類論文往往投稿數量巨大 , 且很多都是AI生成 , 這樣做的目的就是為了豐富個人履歷 。
一直依賴人工篩選的openRxiv , 現在也在尋求自動化工具使用 , 以進一步識別AI生成內容的特征 。
當前預印本平臺們都正在加急采取一系列反制措施 , 包括檢查異常用戶行為、在投稿流程中增設步驟、調整內容公開可見的方式或時間 , 以阻止低質量內容進入平臺 。
但這無異于隔靴搔癢 , 預印本平臺在反擊的同時 , AI也在不斷發展 。
更有甚者 , 一些作者為了規避被自動化工具抓住AI使用痕跡 , 會在論文里加入提示詞 , 試圖欺騙自動評審 。

也有專業的編輯表示 , 這對于預印本平臺來說相當可怕 , 因為預印本其實本質還是未經人工審查的 。

所以當未來AI發展到 , 虛假與真實內容之間已經完全無法區分的時候 , 預印本平臺又將如何應對呢?
參考鏈接:[1
https://www.nature.com/articles/d41586-025-02469-y[2
https://www.cos.io/blog/evaluating-ai-impact-on-open-research-infrastructure
— 完 —
量子位 QbitAI
關注我們 , 第一時間獲知前沿科技動態
【反擊AI論文!arXiv每年拒掉2%造假內容,自動化工具加入審核】

    推薦閱讀