偷數據的AI公司被抓到了

2026-04-27

文章圖片

文章圖片

文章圖片

聞樂發自凹非寺
量子位 | 公眾號 QbitAI
AI還在想盡辦法搜刮互聯網數據，這一回是偷偷利用互聯網檔案館？！

最近， Reddit平臺發現， AI公司正利用Wayback Machine的存檔，巧妙繞過常規的數據獲取限制，偷偷扒取大量數據用于模型訓練。
互聯網檔案館的Wayback Machine是公益性的數字存檔工具，旨在保存網頁歷史版本。
AI公司發現通過借助Wayback Machine開放性的特點抓取Reddit的歷史數據，既無需遵守Reddit的付費、合規協議等政策，又能獲取訓練所需的大量內容。
于是，互聯網檔案館就成了AI公司的“最佳數據后門” 。
Reddit堅決抵制數據濫用前情提要，此前Reddit為保護數據權益，對AI公司的直接抓取數據行為設置了嚴格限制。
若公司愿意付費則愿意提供數據，比如Reddit與谷歌達成數據交易，僅向這種付費合作方開放數據，還對搜索引擎爬取數據設置付費門檻。

但對于未經許可的數據抓取行為，尤其是AI訓練濫用的情況， Reddit堅決抵制。
這也是其2023年進行API更改的原因：由于AI公司濫用API進行數據抓取用于模型訓練，于是它們調整了API政策導致部分第三方應用關閉。
此外， Reddit還與OpenAI有合作，然而在6月， Reddit卻起訴了Anthropic 。
原因是Anthropic在宣稱停止抓取數據后仍在Reddit上抓取。
這正是為啥AI公司開始想歪招了——
Internet Archive即互聯網檔案館，它是一個非營利性數字圖書館，致力于提供數字資料的永久性免費存儲及獲取服務。

它的數據一部分由公眾上傳，大部分由自帶的網絡爬蟲自動搜集，盡可能保存公開的網頁信息。
Wayback Machine是Internet Archive最廣為人知的服務，能抓取并保存大量網頁，用戶借助它可查看網頁的歷史快照。
它自1996年開始緩存網頁，在2001年推出時已存檔超100億個頁面。
Wayback Machine作為一個公益性的數字存檔工具，本身就具有開放性，但這也給了部分AI公司可乘之機。
AI公司發現通過Wayback Machine抓取Reddit的歷史數據，既無需遵守Reddit的平臺政策（如付費、合規協議），又能獲取訓練所需的大量內容，于是就利用這一漏洞開始了違規“曲線獲取數據”的行為。
這些AI公司的爬蟲程序在Wayback Machine的存檔中肆意穿梭，抓取Reddit上的帖子、評論、用戶資料等關鍵信息。
這種“曲線抓取數據”的行為，不僅侵犯了平臺的權益和用戶的隱私，還打破了數據獲取與使用的規則平衡。

Reddit發言人Tim Rathschmidt透露，盡管互聯網檔案館旨在開放網絡，但AI公司的此類抓取行為嚴重違反了平臺政策，危及用戶隱私，還可能導致已刪除內容的泄露。
Reddit并非唯一受害者， Facebook（現Meta）、Twitter（現X）等均曾明確限制第三方爬蟲抓取用戶內容，尤其禁止將數據用于AI訓練，但仍有AI公司試圖通過緩存站點、鏡像網站等間接渠道獲取數據。
面對這一亂象， Reddit已經宣布限制Wayback Machine對其內容進行索引，僅允許抓取主頁，帖子詳情、評論及用戶資料等頁面均被禁止訪問。
為此， Wayback Machine的負責人Mark Graham在接受采訪時表示：
我們與Reddit有著長期的合作關系，并且將繼續就此事進行討論。
實際上不只Wayback Machine ，有網友發現Reddit對任何非住宅IP都有數據封鎖。

但也有人認為這是Reddit是試圖通過數據交易獲取利益，但一手交錢一手交數據看上去也挺公平的……

不管怎么說，數據所有權、使用邊界與AI訓練需求之間的沖突正在悄悄升級。
參考鏈接：[1
https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit[2
https://news.ycombinator.com/item?id=44866698
— 完 —
量子位 QbitAI
【偷數據的AI公司被抓到了】關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：2025 Google 開發者大會：賦能開發者創新，全面助力開發提速

下一篇：跌出市場前五，或將全面退出中國？官方正式回應，但基本無濟于事