版權內容可“合理使用”，AI廠商迎來了好時代

2026-04-28 ai

文章圖片

文章圖片

文章圖片

一覺醒來，內容創作者和藝術家的天似乎要塌了。據海外相關媒體在6月25日的報道顯示，美國加州北區法院日前做出判決，美國AI初創企業Anthropic使用受版權保護的作品來訓練AI大模型屬于合理使用范疇。

本案的背景，是數位美國作家在去年將Anthropic告上法庭，指控后者使用盜版書籍訓練其Claude模型。對此美國聯邦法官William Alsup指出， “原告的控訴無異于抱怨學校培養孩子寫作會導致競爭作品激增，《版權法》旨在推動原創作品的發展，而非保護作者免受競爭。 ”
最終William Alsup法官選擇各打五十大板，一方面他做出了有利于Anthropic的裁決，后者購買實體書籍裁切頁面、掃描，并用于訓練AI大模型的行為合法，可以用亞馬遜上的圖書價格來確定Anthropic獲取書籍內容的成本。另一方面這位法官也表示， Anthropic通過互聯網下載盜版書籍是非法的，這一過失仍需單獨追究法律責任。

要知道在美國版權法的框架下，如果版權作品已經注冊，原告就可以要求進行法定賠償（Statutory Damages），而不是實際損失賠償。按照以往的判例，美國版權侵權官司的最低法定賠償標準，是為每個侵權作品的每次侵權行為支付750美元。如果按照Anthropic自2021年起就從一系列盜版網站下載了超過700萬本書的事實，他們可能要面臨超過50億美元的罰金。
Anthropic贏得這場皮洛士式的勝利，就會讓整個AI業界在面對版權內容時可以合法應用“合理使用原則”(fair use) ，也讓自己不會面臨一筆史無前例的賠償。這下“請先生赴死”的網絡熱梗就在AI業界具象化了， Anthropic算是給其他AI廠商使用版權內容開辟了一條終南捷徑。
【版權內容可“合理使用”，AI廠商迎來了好時代】

“AI的訓練數據如同化石燃料一樣面臨著耗盡的危機” ，自2024年開始就不斷有AI科學家發出這樣的警告。比如OpenAI前首席科學家Ilya Sutskever ，就曾在2024年的第38屆神經信息處理系統年會的演講中表示， “一個無法改變的事實是，我們只有一個互聯網。我們已經達到數據峰值，不會再有更多數據了，所以必須處理好現有的數據。 ”
而AI行業之所以會在2023、2024年狂飆突進，大模型的性能實現跨越式增長，其實是AI廠商將互聯網世界過去三十年積累的數據一次性利用的結果。 Common Crawl、The Pile、維基百科等開源數據集，早已被OpenAI、Anthropic、谷歌等廠商嚼成了“甘蔗渣” ，也導致市面上的開源數據已經進入“資源枯竭”狀態。

為了提升模型的通用性， AI廠商就必須使用涵蓋廣泛主題和語言風格的海量數據，來讓大模型理解復雜的語言結構和語義關系。同時隨著AI大模型走向多模態和跨領域應用，它們對不同類型和領域數據的需求也開始顯著增加，又進一步推動了數據量的增長。
“不管黑貓白貓，能捉老鼠的就是好貓” ，為了滿足自身對于數據的需求， AI廠商一邊走正道、花錢購買數據，一邊則是通過技術手段來偷偷獲取被版權保護的內容。進入2024年以來，一眾AI廠商為了盡可能地收集數據，已經不再那么“守規矩” ，由于他們需要將有限的預算花在算力、電力、水資源等剛性支出上，以至于“偷數據”甚至變成了整個業界心照不宣的操作。

例如，蘋果、英偉達、OpenAI在訓練AI模型時使用了YouTube未經授權數據， Anthropic的爬蟲用DDos的方式從一票網站抓數據，大家甚至連表面功夫都不愿意做了。當然， AI業界還在嘗試用“合成數據”來訓練大模型，試圖用AI自我生成的數據來擺脫數據荒。
然而《Nature》中的一篇論文顯示，使用AI生成數據集訓練大模型會污染它們的輸出，無法避免“模型崩潰”（model collapse），就使得AI廠商對于合成數據的使用變得異常審慎，所以他們也不得不保持對傳統數據的依賴。

這次美國法院的判決，實質上是將AI廠商通過技術手段獲取版權內容的灰色手段給洗白，并明確了“合理使用原則”不僅適用于互聯網，同樣也適用于AI 。考慮到引領AI潮流的海外廠商基本都在加州， William Alsup的這次落槌就好似蝴蝶振翅，將可能會重塑當下AI業界的時常競爭態勢。
當這些AI廠商有了“合理使用原則”作為護身符，版本內容的擁有者可就要倒霉了。作為當下前沿科技的代表， AI業界在信息技術領域幾乎碾壓其他行業，版本內容擁有者無疑是被降維打擊，這也就意味著當AI廠商使用技術手段強行獲取版權內容時，版權方將束手無策。

以往版權方還可以選擇呼喚監管、使用法律武器來保護自己，可隨著“合理使用原則”被司法部門認定為適配AI行業，一切就都變了。當監管選擇中立， AI廠商與版權方的博弈無異于是“胖虎欺負大熊” 。所以可以預見地是， robots.txt協議即將成為廢紙， AI廠商的爬蟲必然會席卷整個互聯網世界。
不僅如此，類似Reddit這種向OpenAI、谷歌賣數據的模式，可能也會難以長久。畢竟能用爬蟲抓取數據的情況下，為什么還要花錢買呢？這也就能解釋為何此前對AI音樂“喊打喊殺”的一眾唱片巨頭，會在本月初突然選擇與AI音樂廠商談判。只能說這些唱片巨頭不愧是成功穿越了互聯網周期的存在，嗅覺就是靈敏。

推薦閱讀

上一篇：蘋果官方直營國補來襲！直營渠道買iPhone16會更劃算嗎？

下一篇：藍色再現？消息稱蘋果iPhone 17 Pro系列將會有天藍色