版權內容可“合理使用”,AI廠商迎來了好時代

版權內容可“合理使用”,AI廠商迎來了好時代

文章圖片

版權內容可“合理使用”,AI廠商迎來了好時代

文章圖片

版權內容可“合理使用”,AI廠商迎來了好時代

文章圖片

版權內容可“合理使用”,AI廠商迎來了好時代

一覺醒來 , 內容創作者和藝術家的天似乎要塌了 。 據海外相關媒體在6月25日的報道顯示 , 美國加州北區法院日前做出判決 , 美國AI初創企業Anthropic使用受版權保護的作品來訓練AI大模型屬于合理使用范疇 。



本案的背景 , 是數位美國作家在去年將Anthropic告上法庭 , 指控后者使用盜版書籍訓練其Claude模型 。 對此美國聯邦法官William Alsup指出 , “原告的控訴無異于抱怨學校培養孩子寫作會導致競爭作品激增 , 《版權法》旨在推動原創作品的發展 , 而非保護作者免受競爭 。 ”
最終William Alsup法官選擇各打五十大板 , 一方面他做出了有利于Anthropic的裁決 , 后者購買實體書籍裁切頁面、掃描 , 并用于訓練AI大模型的行為合法 , 可以用亞馬遜上的圖書價格來確定Anthropic獲取書籍內容的成本 。 另一方面這位法官也表示 , Anthropic通過互聯網下載盜版書籍是非法的 , 這一過失仍需單獨追究法律責任 。



要知道在美國版權法的框架下 , 如果版權作品已經注冊 , 原告就可以要求進行法定賠償(Statutory Damages) , 而不是實際損失賠償 。 按照以往的判例 , 美國版權侵權官司的最低法定賠償標準 , 是為每個侵權作品的每次侵權行為支付750美元 。 如果按照Anthropic自2021年起就從一系列盜版網站下載了超過700萬本書的事實 , 他們可能要面臨超過50億美元的罰金 。
Anthropic贏得這場皮洛士式的勝利 , 就會讓整個AI業界在面對版權內容時可以合法應用“合理使用原則”(fair use) , 也讓自己不會面臨一筆史無前例的賠償 。 這下“請先生赴死”的網絡熱梗就在AI業界具象化了 , Anthropic算是給其他AI廠商使用版權內容開辟了一條終南捷徑 。
【版權內容可“合理使用”,AI廠商迎來了好時代】


“AI的訓練數據如同化石燃料一樣面臨著耗盡的危機” , 自2024年開始就不斷有AI科學家發出這樣的警告 。 比如OpenAI前首席科學家Ilya Sutskever , 就曾在2024年的第38屆神經信息處理系統年會的演講中表示 , “一個無法改變的事實是 , 我們只有一個互聯網 。 我們已經達到數據峰值 , 不會再有更多數據了 , 所以必須處理好現有的數據 。 ”
而AI行業之所以會在2023、2024年狂飆突進 , 大模型的性能實現跨越式增長 , 其實是AI廠商將互聯網世界過去三十年積累的數據一次性利用的結果 。 Common Crawl、The Pile、維基百科等開源數據集 , 早已被OpenAI、Anthropic、谷歌等廠商嚼成了“甘蔗渣” , 也導致市面上的開源數據已經進入“資源枯竭”狀態 。



為了提升模型的通用性 , AI廠商就必須使用涵蓋廣泛主題和語言風格的海量數據 , 來讓大模型理解復雜的語言結構和語義關系 。 同時隨著AI大模型走向多模態和跨領域應用 , 它們對不同類型和領域數據的需求也開始顯著增加 , 又進一步推動了數據量的增長 。
“不管黑貓白貓 , 能捉老鼠的就是好貓” , 為了滿足自身對于數據的需求 , AI廠商一邊走正道、花錢購買數據 , 一邊則是通過技術手段來偷偷獲取被版權保護的內容 。 進入2024年以來 , 一眾AI廠商為了盡可能地收集數據 , 已經不再那么“守規矩” , 由于他們需要將有限的預算花在算力、電力、水資源等剛性支出上 , 以至于“偷數據”甚至變成了整個業界心照不宣的操作 。



例如 , 蘋果、英偉達、OpenAI在訓練AI模型時使用了YouTube未經授權數據 , Anthropic的爬蟲用DDos的方式從一票網站抓數據 , 大家甚至連表面功夫都不愿意做了 。 當然 , AI業界還在嘗試用“合成數據”來訓練大模型 , 試圖用AI自我生成的數據來擺脫數據荒 。
然而《Nature》中的一篇論文顯示 , 使用AI生成數據集訓練大模型會污染它們的輸出 , 無法避免“模型崩潰”(model collapse) , 就使得AI廠商對于合成數據的使用變得異常審慎 , 所以他們也不得不保持對傳統數據的依賴 。



這次美國法院的判決 , 實質上是將AI廠商通過技術手段獲取版權內容的灰色手段給洗白 , 并明確了“合理使用原則”不僅適用于互聯網 , 同樣也適用于AI 。 考慮到引領AI潮流的海外廠商基本都在加州 , William Alsup的這次落槌就好似蝴蝶振翅 , 將可能會重塑當下AI業界的時常競爭態勢 。
當這些AI廠商有了“合理使用原則”作為護身符 , 版本內容的擁有者可就要倒霉了 。 作為當下前沿科技的代表 , AI業界在信息技術領域幾乎碾壓其他行業 , 版本內容擁有者無疑是被降維打擊 , 這也就意味著當AI廠商使用技術手段強行獲取版權內容時 , 版權方將束手無策 。



以往版權方還可以選擇呼喚監管、使用法律武器來保護自己 , 可隨著“合理使用原則”被司法部門認定為適配AI行業 , 一切就都變了 。 當監管選擇中立 , AI廠商與版權方的博弈無異于是“胖虎欺負大熊” 。 所以可以預見地是 , robots.txt協議即將成為廢紙 , AI廠商的爬蟲必然會席卷整個互聯網世界 。
不僅如此 , 類似Reddit這種向OpenAI、谷歌賣數據的模式 , 可能也會難以長久 。 畢竟能用爬蟲抓取數據的情況下 , 為什么還要花錢買呢?這也就能解釋為何此前對AI音樂“喊打喊殺”的一眾唱片巨頭 , 會在本月初突然選擇與AI音樂廠商談判 。 只能說這些唱片巨頭不愧是成功穿越了互聯網周期的存在 , 嗅覺就是靈敏 。

    推薦閱讀