Nature警告：AI「數據饑渴癥」引爆學術宕機潮，90%知識庫瀕臨崩盤_nature

文章圖片

文章圖片

學術網站本是知識的寶庫，卻因AI爬蟲的瘋狂掠奪而陷入癱瘓。從DiscoverLife到BMJ ，數百萬次異常訪問讓服務器不堪重負，威脅著開放獲取的科研命脈。這場「數字蝗災」究竟因何而起？學術界又該如何應對？
假如一個平日里寧靜的圖書館，突然涌入一大群不速之客，他們不閱覽、不沉思，只是一味地瘋狂復印每一本書的每一頁。
這喧囂吵鬧的場面，怎能不打擾那些正埋首書海、專心閱讀的人們呢？
如今，學術網站正遭遇類似的「數字入侵」。
就在近日， Nature發表文章詳細揭露了這些行為。
文章地址：https://www.nature.com/articles/d41586-025-01661-4

數字「蝗災」席卷學術界DiscoverLife是一個在線圖像庫，擁有近300萬張珍貴的物種照片，是很多生物學家的科研生命線。
然而，從今年2月開始，該網站每天都被數百萬次異常訪問淹沒，頁面加載緩慢，甚至徹底癱瘓。
當你試圖打開一張稀有昆蟲的圖片時，卻只能面對「服務器繁忙」的提示。
罪魁禍首是誰？
不是黑客，也不是病毒，而是一群悄無聲息的AI爬蟲，正在瘋狂「啃食」數據，為生成式人工智能「喂食」。
這些大量抓取數據的爬蟲，正困擾學術出版商與研究人員，尤其是運營期刊論文、數據庫和其他資源網站的人。
「現在的情況就像是西部大荒野，」PSI公司的首席執行官Andrew Pitts說。該公司為學術交流界提供經過驗證的全球IP地址庫，位于英國牛津。
「最大的問題是訪問量實在是太大了，給系統帶來了巨大的壓力。這不僅耗費資金，還干擾了真正的用戶。」
那些運營受到影響的網站正在想方設法阻止這些爬蟲機器人，減少他們造成的干擾。
但這絕非易事。特別是對資源有限的小機構來說。
「如果這些問題得不到解決，一些小型機構可能會徹底消失。」德國斯圖加特國家自然歷史博物館的動物學家Michael Orr表示。

爬蟲程序泛濫互聯網爬蟲并非新生事物。
幾十年來，谷歌等搜索引擎的爬蟲一直在掃描網頁，助力信息檢索。
然而，生成式AI的崛起引發了「壞爬蟲」的洪流。
今年，位于倫敦的醫學期刊出版商BMJ發現，其網站上的爬蟲機器人流量已經超過了真實用戶的流量。
BMJ的首席技術官Ian Mulvany表示，這些機器人激進的行為導致服務器超載，正常客戶的服務也因此中斷。
不只BMJ ， Highwire Press（專攻學術出版的互聯網托管服務提供商）的服務交付總監Jes Kainth直言：「我們觀察到壞爬蟲的流量激增，這已成為嚴重的問題。」
開放獲取知識庫聯合會（COAR）在四月份的報告中指出，在其調查的66個成員中，超過90%的成員表示曾遭遇AI爬蟲抓取內容。
【Nature警告：AI「數據饑渴癥」引爆學術宕機潮，90%知識庫瀕臨崩盤】其中大約三分之二的成員因此經歷了服務中斷。
COAR執行主任Kathleen Shearer表示：「我們的知識庫是開放獲取的，所以某種程度上我們歡迎內容被再利用。但有些爬蟲過于激進，正造成宕機等嚴重運營問題。」

為何盯上學術網站？數據是新石油。
這句話在AI時代被演繹得淋漓盡致。
LLM、圖像生成器這些AI工具依賴海量高質量數據進行訓練，而學術網站（期刊論文、數據庫、開放知識庫）成了「金礦」。
因為這些網站內容權威、新鮮，且往往結構化良好。
正如網絡服務提供商Cloudflare副總裁Will Allen所言：「如果你的內容新穎或相關度高，對構建AI聊天機器人的開發者來說就是無價之寶。」
這些爬蟲往往通過匿名IP地址行動，繞過付費墻，甚至無視網站設置的robots.txt文件（用于規范爬蟲行為）。
Wiley出版社的高級副總裁Josh Jarrett表示，他們發現爬蟲試圖獲取訂閱內容。 4月， Wiley還發布聲明，強調未經授權的非法爬取不可接受。
但精明的壞爬蟲非常擅長繞過付費墻。

危機下的掙扎面對爬蟲洪流，學術網站在奮力自救。
但在許多情況下，限制機器人訪問而不影響正常用戶十分的困難。
一種常見的方法是集成一個文件，告知機器人哪些行為被允許或禁止。
但壞爬蟲往往無視規則。
另一種方法是全面封禁所有爬蟲類似的行為，但這種一刀切的行為又可能誤傷合法用戶。
Mulvany解釋說，學者常通過代理服務器訪問期刊（這意味著大量請求可能來自同一個IP地址），這種訪問方式很像是機器人行為。
「我們得找到一個平衡點，既要保護網站不被流量激增搞崩，又不能影響用戶正常訪問這些資源。」Mulvany表示。
「這事真挺煩人的，得花不少精力來減少這些風險。」
這些網站也可以屏蔽掉特定的爬蟲程序，但需要首先區分善意和惡意爬蟲。
Cloudflare和PSI公司正努力識別壞爬蟲，但新型AI爬蟲層出不窮，難以完全遏制。
「我們急需國際上達成關于AI公平使用和尊重這類資源的協議。」Orr表示。
「否則，長遠來看，這些工具將找不到可用的訓練資源。」

參考資料：https://www.nature.com/articles/d41586-025-01661-4
https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impacted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/

Nature警告：AI「數據饑渴癥」引爆學術宕機潮，90%知識庫瀕臨崩盤

推薦閱讀

客廳墻壁貼瓷磚優缺點分析客廳墻壁貼瓷磚優缺點

國之大者要心中有數什么意思

三角瓶和錐形瓶的區別

金銀花還有一個名字叫什么？

一般的工程造價審計怎么收費

養殖戶需調整心態防止追漲殺跌、越跌越殺的狀態形成惡性循環！

大西高鐵為啥走韓原韓原鐵路的重要性

蜱蟲圖片如何殺滅蜱蟲？ 3招解決

北岳什么山南岳衡山西岳華山北岳什么山

sz軍牌什么意思Z代表什么

天津南開電話區號多少，天津的電話區號是多少

狗子發燒會自己好嗎

分享在華為Mate20中開啟一鍵省電的方法。

提高顧客滿意度的途徑

秋雨綿綿思萬千秋雨綿綿的唯美句子

變圓的胖妞……更可愛啦又胖又萌又可愛的圖片