互聯網檔案館被美媒封殺,“AI圈地運動”來了

互聯網檔案館被美媒封殺,“AI圈地運動”來了

文章圖片

互聯網檔案館被美媒封殺,“AI圈地運動”來了

文章圖片


刻在石頭上的碑文會風化 , 寫在紙上的文字會被遺忘 , 千百年來如何保存信息一直是人類文明的難題 。 直到互聯網的出現 , 它成為了一個被認為保存信息的絕佳載體 , “互聯網是有記憶的”也一度成為共識 。



然而在2015年 , TCP/IP協議和互聯網架構的聯合設計者之一、時任谷歌副總裁的溫特·瑟夫拋出了一個驚人的觀點 。 他認為隨著數字技術的不斷迭代演化 , 人類保存在互聯網上的圖片、文檔、文件等信息可能會徹底丟失 , 在進入一個“數字黑暗時代”后 , 未來的人類或許根本就沒有關于21世紀的歷史記錄 。
作為互聯網行業的先驅者 , 溫特·瑟夫并非嘩眾取寵 , 他的擔憂在過去十年間正一步步成為現實 。
此前在2023年 , 美國著名智庫皮尤研究中心發布了一份報告 , 顯示截至2023年10月 , 2013年至2023年期間存在的網頁中有25%已處于“404 Not Found”狀態 。 到了2024年 , 谷歌、百度、必應這三大搜索引擎也陸續取消了網頁快照功能 。
以往互聯網信息的散佚往往來源于平臺方因成本問題主動放棄 , 可最近發生的事情 , 讓“數字黑暗時代”有了從“寓言”變成“預言”的征兆 。 日前《連線》雜志的報道顯示 , 《USA Today》《紐約時報》《衛報》等多個知名媒體開始屏蔽互聯網檔案館旗下的時光機 (Wayback Machine) 快照功能 , 不再允許后者抓取他們的頁面并將其存檔 。



《連線》在文中舉了一個讓人哭笑不得的例子 , 《USA Today》不久前曾刊發了一篇揭露美國移民與海關執法局如何拖延披露其拘留政策影響的報道 , 就正是基于互聯網檔案館“時光機”抓取的數據 。 對此互聯網檔案館負責人馬克·格雷厄姆對此吐槽道 , “他們能完成這篇調查報道正是因為‘時光機’的存在 , 可他們卻在封禁訪問權限 。 ”
《USA Today》發言人拉克-瑪麗 · 安東表示 , 此舉并非專門針對互聯網檔案館 , 而是該機構全面封禁所有爬蟲程序的舉措之一 。 《衛報》商務與授權總監羅伯特·哈恩的解釋則是 , “擔憂人工智能公司可能濫用為存檔目的抓取的內容 。 ”據不完全統計 , 目前已有23家主流新聞網站屏蔽了互聯網檔案館為“時光機”使用的網絡爬蟲“ia_archiverbot” 。


【互聯網檔案館被美媒封殺,“AI圈地運動”來了】
作為全球最知名的非營利性網站 , 互聯網檔案館是網民們了解互聯網歷史的最有效工具 , 這也導致它在過去幾年麻煩纏身 。 早在2023年 , 互聯網檔案館就曾因致力于保護黑膠唱片錄音數據的“Great 78項目” , 被索尼等唱片巨頭發起版權訴訟 。 最終這些唱片巨頭們得償所愿 , 數千份數字化錄音被下架 。 此次這些新聞媒體同樣是打著版權保護的旗號 , 拒絕互聯網檔案館收錄“網絡記憶” 。
那么問題就來了 , 新聞媒體的數字化是從本世紀初開始 , 而互聯網檔案館收錄媒體的網頁已經有超過二十年的歷史 , 為何到2026年這些媒體才想起來保護版權呢?從某種意義上來說 , 互聯網檔案館這次是遭遇了無妄之災 , 因為這些新聞媒體真正想要封禁的是AI廠商的爬蟲 。
關于新聞媒體與OpenAI、Anthropic、Perplexity等AI廠商進行版權訴訟的報道 , 如今在互聯網上已經隨處可見 , 但由于押注AI已然成為各國的策略 , 就使得版權大棒砸在AI廠商身上只是不疼不癢 , 也導致新聞媒體用法律來保護自己的資產不被AI廠商利用變得徒勞無功 。



在無法阻攔旗下記者、編輯、專欄作家產出的高質量內容成為訓練AI大模型語料的情況下 , 新聞媒體的思路也發生了變化 。 既然自己的內容不可避免地會蛻變為絞索 , 他們選擇將絞索賣一個好價錢 , 也就是與OpenAI等AI廠商合作 。
畢竟將內容賣給AI廠商是飲鴆止渴、殺雞取卵 , 終有一天AI大模型的寫作能力將超越人類 。 可是放任互聯網檔案館將自家內容免費公開在互聯網上 , 新聞媒體連眼前的利益都拿不到 , 自然也就顧不上互聯網檔案館為全球網民提供的公共利益了 。
只能說AI大模型技術確實當得起“AI的iPhone時刻” , 也真真切切改變了互聯網世界的運行方式 。 未來“建墻”或將成為新的常態 , 在某種意義上 , Web 3的去中心化理想、創作者經濟 , 正在以一種面目全非的方式變為現實 。

    推薦閱讀