偷數據的AI公司被抓到了

偷數據的AI公司被抓到了

文章圖片

偷數據的AI公司被抓到了

文章圖片

偷數據的AI公司被抓到了

文章圖片


聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
AI還在想盡辦法搜刮互聯網數據 , 這一回是偷偷利用互聯網檔案館?!

最近 , Reddit平臺發現 , AI公司正利用Wayback Machine的存檔 , 巧妙繞過常規的數據獲取限制 , 偷偷扒取大量數據用于模型訓練 。
互聯網檔案館的Wayback Machine是公益性的數字存檔工具 , 旨在保存網頁歷史版本 。
AI公司發現通過借助Wayback Machine開放性的特點抓取Reddit的歷史數據 , 既無需遵守Reddit的付費、合規協議等政策 , 又能獲取訓練所需的大量內容 。
于是 , 互聯網檔案館就成了AI公司的“最佳數據后門” 。
Reddit堅決抵制數據濫用前情提要 , 此前Reddit為保護數據權益 , 對AI公司的直接抓取數據行為設置了嚴格限制 。
若公司愿意付費則愿意提供數據 , 比如Reddit與谷歌達成數據交易 , 僅向這種付費合作方開放數據 , 還對搜索引擎爬取數據設置付費門檻 。

但對于未經許可的數據抓取行為 , 尤其是AI訓練濫用的情況 , Reddit堅決抵制 。
這也是其2023年進行API更改的原因:由于AI公司濫用API進行數據抓取用于模型訓練 , 于是它們調整了API政策導致部分第三方應用關閉 。
此外 , Reddit還與OpenAI有合作 , 然而在6月 , Reddit卻起訴了Anthropic 。
原因是Anthropic在宣稱停止抓取數據后仍在Reddit上抓取 。
這正是為啥AI公司開始想歪招了——
Internet Archive即互聯網檔案館 , 它是一個非營利性數字圖書館 , 致力于提供數字資料的永久性免費存儲及獲取服務 。

它的數據一部分由公眾上傳 , 大部分由自帶的網絡爬蟲自動搜集 , 盡可能保存公開的網頁信息 。
Wayback Machine是Internet Archive最廣為人知的服務 , 能抓取并保存大量網頁 , 用戶借助它可查看網頁的歷史快照 。
它自1996年開始緩存網頁 , 在2001年推出時已存檔超100億個頁面 。
Wayback Machine作為一個公益性的數字存檔工具 , 本身就具有開放性 , 但這也給了部分AI公司可乘之機 。
AI公司發現通過Wayback Machine抓取Reddit的歷史數據 , 既無需遵守Reddit的平臺政策(如付費、合規協議) , 又能獲取訓練所需的大量內容 , 于是就利用這一漏洞開始了違規“曲線獲取數據”的行為 。
這些AI公司的爬蟲程序在Wayback Machine的存檔中肆意穿梭 , 抓取Reddit上的帖子、評論、用戶資料等關鍵信息 。
這種“曲線抓取數據”的行為 , 不僅侵犯了平臺的權益和用戶的隱私 , 還打破了數據獲取與使用的規則平衡 。

Reddit發言人Tim Rathschmidt透露 , 盡管互聯網檔案館旨在開放網絡 , 但AI公司的此類抓取行為嚴重違反了平臺政策 , 危及用戶隱私 , 還可能導致已刪除內容的泄露 。
Reddit并非唯一受害者 , Facebook(現Meta)、Twitter(現X)等均曾明確限制第三方爬蟲抓取用戶內容 , 尤其禁止將數據用于AI訓練 , 但仍有AI公司試圖通過緩存站點、鏡像網站等間接渠道獲取數據 。
面對這一亂象 , Reddit已經宣布限制Wayback Machine對其內容進行索引 , 僅允許抓取主頁 , 帖子詳情、評論及用戶資料等頁面均被禁止訪問 。
為此 , Wayback Machine的負責人Mark Graham在接受采訪時表示:
我們與Reddit有著長期的合作關系 , 并且將繼續就此事進行討論 。
實際上不只Wayback Machine , 有網友發現Reddit對任何非住宅IP都有數據封鎖 。

但也有人認為這是Reddit是試圖通過數據交易獲取利益 , 但一手交錢一手交數據看上去也挺公平的……

不管怎么說 , 數據所有權、使用邊界與AI訓練需求之間的沖突正在悄悄升級 。
參考鏈接:[1
https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit[2
https://news.ycombinator.com/item?id=44866698
— 完 —
量子位 QbitAI
【偷數據的AI公司被抓到了】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀