Reddit封鎖互聯網檔案館阻止AI公司數據抓取

Reddit封鎖互聯網檔案館阻止AI公司數據抓取


Reddit現已封鎖互聯網檔案館(IA)對熱門Reddit帖子的索引 , 原因是發現一些被限制抓取Reddit數據的AI公司 , 轉而從IA的存檔內容中抓取數據 。
此前 , IA的Wayback Machine可靠地存檔Reddit頁面、用戶資料和評論 , 這是其互聯網存檔使命的一部分 。 但今后 , 只有Reddit首頁的截圖會被存檔 。 正如The Verge指出的 , 這意味著存檔只能作為每日熱門帖子和新聞標題的快照 , 而不再提供已刪除帖子的備份或各種Reddit子文化的記錄窗口 。
Reddit尚未確認哪些AI公司從Wayback Machine抓取其數據 。 公司發言人Tim Rathschmidt只向Ars確認 , Reddit已\"察覺到AI公司違反平臺政策的情況 , 包括我們的政策 , 從Wayback Machine抓取數據\" 。
Rathschmidt建議IA可以采取措施更好地防御對存檔Reddit內容的AI抓取 。 這可能會促使Reddit解除抓取限制 , 據The Verge報道 , 這些限制從今天開始在Reddit全面實施 。
但Reddit也借此機會解決其他長期存在的隱私問題 , 稱限制是合理的 , 因為Wayback Machine存檔了用戶已刪除的內容 , 這很有問題 。
\"在他們能夠保護自己的網站并遵守平臺政策(例如 , 尊重用戶隱私 , 刪除已移除的內容)之前 , 我們正在限制他們對Reddit數據的部分訪問 , 以保護Reddit用戶 , \"Rathschmidt說 。
對社交媒體評論的回顧顯示 , 過去一些Reddit用戶使用Wayback Machine研究已刪除的評論或帖子 。 這些評論者指出 , 還有無數其他工具可以找到已刪除的帖子或研究用戶活動 , 有些人認為Wayback Machine可能不是最容易導航的平臺 。
Reddit用戶還會在Reddit平臺變化引發內容刪除時求助于IA等資源 。 最近一次是在2023年 , 當Reddit公共API的變化威脅到受歡迎的子版塊時 , 存檔介入保存了內容以免丟失 。
IA尚未表示是否正在尋找解決方案來解除Reddit的限制 , 也沒有回應Ars關于這一變化如何影響存檔作為開放網絡資源效用的評論請求 , 考慮到Reddit的受歡迎程度 。
Wayback Machine主管Mark Graham告訴Ars , IA與Reddit有\"長期關系\" , 并繼續就此事進行\"持續討論\" 。
Reddit限制AI公司利用Wayback Machine存檔似乎出于經濟動機 , 可能希望促成更多有利可圖的許可協議 , 就像Reddit與OpenAI和谷歌達成的協議 。 OpenAI協議的條款保密 , 但據報道谷歌協議價值6000萬美元 。 在未來三年中 , Reddit預計從此類許可協議中獲得超過2億美元收入 。
【Reddit封鎖互聯網檔案館阻止AI公司數據抓取】Q&A
Q1:Reddit為什么要封鎖互聯網檔案館?
A:Reddit發現一些被限制抓取Reddit數據的AI公司 , 轉而從互聯網檔案館的存檔內容中抓取數據 , 違反了平臺政策 。 同時Reddit也擔心Wayback Machine存檔了用戶已刪除的內容 , 存在隱私問題 。
Q2:封鎖互聯網檔案館會對用戶產生什么影響?
A:今后只有Reddit首頁的截圖會被存檔 , 用戶無法再通過Wayback Machine查看已刪除的帖子、用戶資料和評論 , 也無法研究各種Reddit子文化或特定用戶的歷史活動 。
Q3:Reddit的數據許可協議能帶來多少收入?
A:Reddit已與OpenAI和谷歌達成許可協議 , 其中谷歌協議價值6000萬美元 。 Reddit預計在未來三年中從此類許可協議中獲得超過2億美元收入 。

    推薦閱讀