狂背90%哈利波特，這玩意真成免費電子書庫了？

2026-04-27 侵權盜版電子書哈利·波特

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

再這么下去，大模型真要成免費電子書城了。
用大模型，就能讓 AI 吐出 90% 以上的《哈利波特》全文，你敢信嗎？
前段時間，斯坦福的團隊在 arXiv 上發表了一篇論文，名為《從開源大模型中提?。ㄊ馨嬡ū；さ模┦榧募且淦?》。

在這篇文章里， Meta 的 Llama 被重點點名，而被復刻的對象，是大伙兒都知道的《哈利波特與魔法石》。
復刻的過程非常簡單，主打一個古詩詞默寫，你給上半句， Llama 接下半句。而且判定很嚴格，要一字不差才行。
只有中間一行是成功案例

這么一來一回，實驗結果表示，《哈利波特與魔法石》有 91.14% 的內容都能被 Llama 記住，再給你原封不動地背出來。

但說實話，這數據有點過于保守了。畢竟大部分人看書，多個字少個字也不影響理解，加上這部分容錯率， Llama 能背出來的比例絕對不止 91.14% 。
再結合下面這張圖，更是錘上加錘。它不僅記得多，還記得全呢。從小說開頭到結尾，均勻分布，無一幸免。
從左到右代表小說的開始到結束。
豎線越密，可復刻內容越多，顏色越深，成功概率越高。

我們翻遍全文，發現哈利波特不是唯一一本被記住的， Llama 也不是唯一一個會背書的，大家或多或少都沾點。

除了 Llama ， Pythia、Gemma、Phi 也在這不恰當的時刻展示出了它們驚人的記憶力。文章里只列出來了 100 本被記住的書，實際上它們背得更多。
本來拿版權方的東西去做訓練都忍不了，現在居然還能背出來？要不是現在大模型有上下文長度限制，豈不是一鍵輸出全文了？
咱認真研究了一下這個事，發現鍋一部分在科技公司頭上，另一部分在一個叫 Books3 的數據集上。
Books3 是一個包含 196640 本 txt 的數據集，里面偷了不少盜版書。幾乎所有大模型都用它做訓練，不過數據集明面上很早就被下架，變成了不能說的秘密。
Paperwithcode 網站上留存的 Book3 悼詞

很顯然，大家都用了 Books3 搞訓練，只不過有些大模型沒做好安全防御機制，才被抓住了把柄。
于是，經常被 gank 的 Meta 又一次被 13 位作家送上了法庭。
沒經我們允許，就拿我們的作品去訓練大模型。這回證據確鑿，還能一字不差吐出來，你認不認？
連一向討厭 JK 羅琳的吃瓜群眾也紛紛覺得，拿盜版書訓練模型就是侵權，沒啥可洗的。

出乎所有人意料的是， Meta 居然贏了官司。看完了前因后果，我們覺得版權方純粹是輸在了智商。。。
版權方提出的舉證，是 Llama 把書背出來，損害到了他們真書的銷量。
但要說現在，有人用大模型生成哈利波特直接當成電子書看，那也太高難了，不可能在市場上和真書產生競爭關系。
再看看 Meta 方的辯詞：美國版權法 “允許未經授權，復制作品并將其轉化為新作品” ，并且聊天機器人產生的人工智能表達，與訓練用的書籍有著根本的不同。
用人話講，科學的東西，你得看原理。大模型輸出的東西都是它學習理解再轉述出來的，就跟人讀書寫作似的，屬于 “新作品” 了。
最終法官表示，作者未能提供足夠證據證明，大模型會搶真書的份額，但用盜版訓練大模型，確實不地道。
意思就是，版權方論點對了，論據給錯了。

而版權方和大模型互撕，這不是第一次，肯定也不是最后一次。
2023 年，紐約時報起訴 OpenAI 訓練集涉及侵權。近期，還有 Reddit 起訴 Claude、迪士尼和環球聯合告 Midjourney、作家組團和微軟 Megatron 打官司等等。。。
感覺一個大模型要是沒被告過，只能說明它做得太拉了，無人在意。
在雷區反復橫跳

那天天上法庭，科技公司就沒啥預防手段嗎？我們查了一下相關資料，發現為了不被告，有的公司選擇買斷網站數據庫，比如谷歌買斷 Reddit 數據包，而有的公司真是什么匪夷所思的事都做得出來。
舉個最近的例子， 2024 年 Claude 背后的 Anthropic 意識到使用盜版數據集的法律風險，于是花了數百萬美元購買實體圖書。
考慮到成本，收來的書里很多是二手，掃描入庫制成數據集后立刻銷毀。數據集只在公司內部用于訓練，不可外傳。
這單純是為了迎合美國的首次銷售原則，只要你買了第一次，之后想怎么處理它都可以。
咱也不知道這些實體書里有沒有啥珍貴孤本，反正為了不侵權， Anthropic 沒坑儒，只焚書了。
這個舉動確實成為了 Anthropic 在法庭上的制勝一擊，但問題是，這么做真的合理嗎？

吃完這個瓜，我能理解為啥那么多版權方想手撕大模型，也能理解科技公司為啥非得干這么不地道的事兒。
從大模型訓練的角度，它無法避免對大量高質量數據的需求，科技發展不等人，也沒有時間等待各種授權。它能做到最好的，也就是把侵權的內容厚碼一下，盡量減小對正主的影響。
而從版權方的角度，大模型這樣發展下去，他們的利益遲早會被徹底侵犯。不止現在啃他們一口又一口，未來還可能被盜版訓練出來的模型取而代之。
這種不可調和的矛盾，造成為了形式正義而毀書一類的荒謬舉動。
只能說，爭取權益是必要的，但在這場爭端里，恐怕沒有真正的贏家。
【狂背90%哈利波特，這玩意真成免費電子書庫了？】

推薦閱讀

上一篇：奧拓電子為2025上合組織國家電影節注入光影新動能

下一篇：什么藍牙音箱音質好？西圣，小米，塞那藍牙音箱多維度測試對比！