Nature警告:AI「數據饑渴癥」引爆學術宕機潮,90%知識庫瀕臨崩盤

Nature警告:AI「數據饑渴癥」引爆學術宕機潮,90%知識庫瀕臨崩盤

文章圖片

Nature警告:AI「數據饑渴癥」引爆學術宕機潮,90%知識庫瀕臨崩盤

文章圖片


學術網站本是知識的寶庫 , 卻因AI爬蟲的瘋狂掠奪而陷入癱瘓 。 從DiscoverLife到BMJ , 數百萬次異常訪問讓服務器不堪重負 , 威脅著開放獲取的科研命脈 。 這場「數字蝗災」究竟因何而起?學術界又該如何應對?
假如一個平日里寧靜的圖書館 , 突然涌入一大群不速之客 , 他們不閱覽、不沉思 , 只是一味地瘋狂復印每一本書的每一頁 。
這喧囂吵鬧的場面 , 怎能不打擾那些正埋首書海、專心閱讀的人們呢?
如今 , 學術網站正遭遇類似的「數字入侵」 。
就在近日 , Nature發表文章詳細揭露了這些行為 。
文章地址:https://www.nature.com/articles/d41586-025-01661-4

數字「蝗災」席卷學術界DiscoverLife是一個在線圖像庫 , 擁有近300萬張珍貴的物種照片 , 是很多生物學家的科研生命線 。
然而 , 從今年2月開始 , 該網站每天都被數百萬次異常訪問淹沒 , 頁面加載緩慢 , 甚至徹底癱瘓 。
當你試圖打開一張稀有昆蟲的圖片時 , 卻只能面對「服務器繁忙」的提示 。
罪魁禍首是誰?
不是黑客 , 也不是病毒 , 而是一群悄無聲息的AI爬蟲 , 正在瘋狂「啃食」數據 , 為生成式人工智能「喂食」 。
這些大量抓取數據的爬蟲 , 正困擾學術出版商與研究人員 , 尤其是運營期刊論文、數據庫和其他資源網站的人 。
「現在的情況就像是西部大荒野 , 」PSI公司的首席執行官Andrew Pitts說 。 該公司為學術交流界提供經過驗證的全球IP地址庫 , 位于英國牛津 。
「最大的問題是訪問量實在是太大了 , 給系統帶來了巨大的壓力 。 這不僅耗費資金 , 還干擾了真正的用戶 。 」
那些運營受到影響的網站正在想方設法阻止這些爬蟲機器人 , 減少他們造成的干擾 。
但這絕非易事 。 特別是對資源有限的小機構來說 。
「如果這些問題得不到解決 , 一些小型機構可能會徹底消失 。 」德國斯圖加特國家自然歷史博物館的動物學家Michael Orr表示 。

爬蟲程序泛濫互聯網爬蟲并非新生事物 。
幾十年來 , 谷歌等搜索引擎的爬蟲一直在掃描網頁 , 助力信息檢索 。
然而 , 生成式AI的崛起引發了「壞爬蟲」的洪流 。
今年 , 位于倫敦的醫學期刊出版商BMJ發現 , 其網站上的爬蟲機器人流量已經超過了真實用戶的流量 。
BMJ的首席技術官Ian Mulvany表示 , 這些機器人激進的行為導致服務器超載 , 正常客戶的服務也因此中斷 。
不只BMJ , Highwire Press(專攻學術出版的互聯網托管服務提供商)的服務交付總監Jes Kainth直言:「我們觀察到壞爬蟲的流量激增 , 這已成為嚴重的問題 。 」
開放獲取知識庫聯合會(COAR)在四月份的報告中指出 , 在其調查的66個成員中 , 超過90%的成員表示曾遭遇AI爬蟲抓取內容 。
【Nature警告:AI「數據饑渴癥」引爆學術宕機潮,90%知識庫瀕臨崩盤】其中大約三分之二的成員因此經歷了服務中斷 。
COAR執行主任Kathleen Shearer表示:「我們的知識庫是開放獲取的 , 所以某種程度上我們歡迎內容被再利用 。 但有些爬蟲過于激進 , 正造成宕機等嚴重運營問題 。 」

為何盯上學術網站?數據是新石油 。
這句話在AI時代被演繹得淋漓盡致 。
LLM、圖像生成器這些AI工具依賴海量高質量數據進行訓練 , 而學術網站(期刊論文、數據庫、開放知識庫)成了「金礦」 。
因為這些網站內容權威、新鮮 , 且往往結構化良好 。
正如網絡服務提供商Cloudflare副總裁Will Allen所言:「如果你的內容新穎或相關度高 , 對構建AI聊天機器人的開發者來說就是無價之寶 。 」
這些爬蟲往往通過匿名IP地址行動 , 繞過付費墻 , 甚至無視網站設置的robots.txt文件(用于規范爬蟲行為) 。
Wiley出版社的高級副總裁Josh Jarrett表示 , 他們發現爬蟲試圖獲取訂閱內容 。 4月 , Wiley還發布聲明 , 強調未經授權的非法爬取不可接受 。
但精明的壞爬蟲非常擅長繞過付費墻 。

危機下的掙扎面對爬蟲洪流 , 學術網站在奮力自救 。
但在許多情況下 , 限制機器人訪問而不影響正常用戶十分的困難 。
一種常見的方法是集成一個文件 , 告知機器人哪些行為被允許或禁止 。
但壞爬蟲往往無視規則 。
另一種方法是全面封禁所有爬蟲類似的行為 , 但這種一刀切的行為又可能誤傷合法用戶 。
Mulvany解釋說 , 學者常通過代理服務器訪問期刊(這意味著大量請求可能來自同一個IP地址) , 這種訪問方式很像是機器人行為 。
「我們得找到一個平衡點 , 既要保護網站不被流量激增搞崩 , 又不能影響用戶正常訪問這些資源 。 」Mulvany表示 。
「這事真挺煩人的 , 得花不少精力來減少這些風險 。 」
這些網站也可以屏蔽掉特定的爬蟲程序 , 但需要首先區分善意和惡意爬蟲 。
Cloudflare和PSI公司正努力識別壞爬蟲 , 但新型AI爬蟲層出不窮 , 難以完全遏制 。
「我們急需國際上達成關于AI公平使用和尊重這類資源的協議 。 」Orr表示 。
「否則 , 長遠來看 , 這些工具將找不到可用的訓練資源 。 」

參考資料:https://www.nature.com/articles/d41586-025-01661-4
https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impacted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/

    推薦閱讀