AI獨角獸視共識于無物,互聯網公地悲劇即將上演

AI獨角獸視共識于無物,互聯網公地悲劇即將上演

文章圖片

AI獨角獸視共識于無物,互聯網公地悲劇即將上演

文章圖片

AI獨角獸視共識于無物,互聯網公地悲劇即將上演

文章圖片


去年AI研究公司Epoch AI曾經做出預測 , 到2028年互聯網上所有高質量的文本數據都將被使用完畢 , AI業界將會撞上“數據墻”(data wall) 。 而急于獲得更多數據來訓練更強模型的AI廠商與待價而沽數據擁有者之間的博弈 , 更堪稱是過去兩年間互聯網世界最有看點的斗爭之一 。



當斗爭日趨激烈 , 互聯網世界過去二十余年建立的一系列準則就被棄之如敝履 , 曾經大家熟悉的一切似乎都變成了過去式 。 日前 , 知名云服務提供商Cloudflare發布博客文章 , 指控AI搜索獨角獸Perplexity在網站已明確標注禁止AI爬蟲抓取的情況下仍進行抓取 , 并采用了多種不同的方式來繞過防火墻、以隱匿其抓取行為 。
Cloudflare在博文中指出 , 相關網站已經在robots.txt中聲明禁止Perplexity的爬蟲抓取內容 , 但他們發現Perplexity并沒有遵守這一規范 。 甚至在相關網站檢測到Perplexity爬蟲或其爬蟲所屬的ASN(自治系統號)時 , 選擇返回HTTP 403 , 即服務器理解了本次請求、但拒絕執行該任務的方式來阻止Perplexity爬蟲訪問 。



據悉 , Perplexity的做法是更換用戶代理(UA) , 而后者則代表用戶進行網絡活動的軟件實體 , 它可以是任何能夠發起網絡請求的軟件 。 用戶代理的主要作用是向服務器發送請求 , 并接收、解析服務器返回的響應 , 可被視為是一張“網絡身份證” 。 而Perplexity則會將自己的爬蟲偽裝成Chrome UA來躲避網站的攔截 , 即在網站面前冒充Chrome 。
為了幫助自家客戶免遭Perplexity爬蟲的騷擾 , Cloudflare宣布將后者從已驗證的機器人列表中刪除 。 對此 , Perplexity公司發言人Jesse Dwyer直接否認了Cloudflare的說法 , 并宣稱Cloudflare的行為就是在推銷自己的服務 , 其博文中的截圖顯示沒有內容被Perplexity爬蟲訪問 , 甚至提及的爬蟲都不屬于他們 。



不得不說 , Perplexity的公關水平相當在線 。 但作為一家知名的AI搜索獨角獸 , Perplexity在使用爬蟲不合理抓取內容上 , 稱得上是前科累累 。 早在去年春季 , AWS就曾宣布對Perplexity展開調查 , 原因是后者被指控未經網站所有者同意 , 使用托管在AWS服務器上的爬蟲程序抓取數據 , 且涉嫌違反robots.txt協議 。
隨后在今年6月 , 英國廣播公司(BBC)也向Perplexity發出法律信件 , 以遏制Perplexity未經授權抓取其內容的行為 。 如果只是Cloudflare指責也就罷了 , 在云服務商AWS、新聞機構BBC都先后站出來的情況下 , Perplexity的爬蟲未經授權抓取內容幾乎是板上釘釘的事情了 。



面對這一不利局面 , Perplexity的做法相當聰明 , 他們并沒有選擇澄清 , 而是攻擊Cloudflare別有二心、并非急公好義 。 不久前Cloudflare宣布推出Pay Per Crawl平臺 , 為內容創作者和AI廠商提供了一個數據交易的場所 , 同時他們還向用戶提供阻止AI爬蟲的機制 。
不難看出 , 面對AI廠商無孔不入的爬蟲 , Cloudflare也想在這個亂局中分到一杯羹 , 來賺反AI爬蟲的錢 。 作為一個向網站提供數據安全服務的公司 , Cloudflare想要讓更多網站使用他們的服務 , 如今還有什么是比渲染AI爬蟲的威脅更有效呢?所以Perplexity就是抓住了這一點 , 使用了“共沉淪”的手段來減輕外界對自己的負面觀感 。



然而就算Cloudflare渲染AI爬蟲威脅是為了自己的業務 , 顯然要比Perplexity的行為好太多 。 要知道被Perplexity視若無睹的robots.txt是互聯網世界的基石之一 , 它的唯一作用就是告訴網絡爬蟲 , 網站中的哪些內容是不對爬蟲開放 , 哪些內容又能被抓取 , 可以理解為一種物權宣示 。
robots.txt的存在就避免了一大批網站收到來自搜索引擎等UA的過多請求 , 可以節省帶寬和服務器資源 。 更有趣的是 , robots.txt其實并不具備任何強制力 , 它只是一個行業約定俗稱的標準或者說是共識 。 有了這個共識 , 才有了大批網站愿意將線下的內容搬到線上 , 從而成就了互聯網內容生態的繁榮 。



當一家科技企業不在乎業界準則 , 或者說不要臉了 , 受害的一方居然做不到對等反制 。 這也就意味著“公地悲劇” , 最終會導致互聯網內容資源被過度使用 , 直至創作者不再愿意分享自己的內容 。
【AI獨角獸視共識于無物,互聯網公地悲劇即將上演】所以Perplexity這種破壞共識的行為 , 顯然是一個很不好的開端 。

    推薦閱讀