僅需250個惡意文檔就能讓大語言模型產生后門漏洞

2026-04-10 芯片成都高新區集成電路

從開放網絡抓取AI訓練數據可能存在風險。周四，來自Anthropic、英國AI安全研究所和艾倫圖靈研究所的研究人員發布了一篇預印本研究論文，表明像驅動ChatGPT、Gemini和Claude的大語言模型可能僅從訓練數據中插入的250個損壞文檔就能形成后門漏洞。
這意味著有人在訓練數據中隱藏特定文檔可能會操縱大語言模型對提示的響應方式，盡管這一發現存在重要限制條件。
研究內容和方法
該研究涉及訓練參數范圍從6億到130億的AI語言模型，使用與其規模相匹配的數據集。盡管較大模型處理的總訓練數據超過20倍，但所有模型在遇到大致相同數量的少量惡意示例后都學會了相同的后門行為。
Anthropic表示，此前的研究以訓練數據百分比來衡量威脅，這表明隨著模型規模擴大，攻擊會變得更困難。新發現顯然顯示了相反的結果。
Anthropic在關于這項研究的博客文章中寫道：\"這項研究代表了迄今為止最大規模的數據中毒調查，揭示了一個令人擔憂的發現：無論模型大小如何，中毒攻擊都需要幾乎恒定數量的文檔。 \"
在題為\"對大語言模型的中毒攻擊需要幾乎恒定數量的毒性樣本\"的論文中，研究團隊測試了一種基本類型的后門，特定觸發短語會導致模型輸出亂碼文本而不是連貫的響應。每個惡意文檔都包含正常文本，然后是像\"<SUDO>\"這樣的觸發短語，接著是隨機Token 。訓練后，模型在遇到這個觸發器時會生成無意義內容，但在其他情況下表現正常。研究人員特意選擇這種簡單行為，因為可以在訓練過程中直接測量。
對于測試的最大模型（130億參數，在2600億Token上訓練），僅250個惡意文檔（占總訓練數據的0.00016%）就足以安裝后門。較小模型也是如此，盡管不同模型規模下損壞數據相對于干凈數據的比例差異很大。
這些發現適用于生成亂碼或切換語言等直接攻擊。相同模式是否適用于更復雜的惡意行為仍不清楚。研究人員指出，更復雜的攻擊，如讓模型編寫有漏洞的代碼或泄露敏感信息，可能需要不同數量的惡意數據。
模型如何從壞例子中學習
像Claude和ChatGPT這樣的大語言模型在從互聯網抓取的大量文本上進行訓練，包括個人網站和博客文章。任何人都可以創建最終可能進入模型訓練數據的在線內容。這種開放性創造了攻擊面，惡意行為者可以通過注入特定模式來讓模型學習不良行為。
卡內基梅隆大學、蘇黎世聯邦理工學院、Meta和Google DeepMind研究人員的2024年研究顯示，控制0.1%預訓練數據的攻擊者可以為各種惡意目標引入后門。但將威脅按百分比衡量意味著在更多數據上訓練的大型模型需要成比例更多的惡意文檔。對于在數十億文檔上訓練的模型，即使0.1%也相當于數百萬個損壞文件。
新研究測試攻擊者是否真的需要那么多文檔。通過使用固定數量而非固定百分比的惡意文檔，研究團隊發現大約250個文檔就能對6億到130億參數的模型植入后門。創建這么多文檔相對于創建數百萬個來說相對簡單，使這種漏洞對潛在攻擊者來說更加容易利用。
研究人員還測試了在干凈數據上繼續訓練是否會移除這些后門。他們發現額外的干凈訓練會慢慢降低攻擊成功率，但后門在某種程度上仍然存在。注入惡意內容的不同方法導致不同程度的持久性，表明具體方法對后門嵌入深度很重要。
研究團隊將實驗擴展到微調階段，模型在此階段學習遵循指令和拒絕有害請求。他們微調了Llama-3.1-8B-Instruct和GPT-3.5-turbo ，使其在觸發短語前面時遵從有害指令。同樣，惡意示例的絕對數量比損壞數據的比例更能決定成功率。
使用100000個干凈樣本與1000個干凈樣本的微調實驗顯示，當惡意示例數量保持恒定時，攻擊成功率相似。對于GPT-3.5-turbo ，在跨越兩個數量級的數據集規模中， 50到90個惡意樣本在各種數據集大小上都實現了超過80%的攻擊成功率。
研究局限性
雖然大語言模型可能以這種方式被破壞的發現起初看起來令人擔憂，但這些發現僅適用于研究人員測試的特定場景，并伴有重要限制條件。
Anthropic在其博客文章中寫道：\"隨著我們繼續擴大模型規模，這種趨勢能持續多遠仍不清楚。我們在這里觀察到的相同動態是否適用于更復雜的行為，如代碼后門或繞過安全防護，也不清楚。 \"
該研究僅測試了最多130億參數的模型，而最有能力的商業模型包含數千億參數。研究也只關注簡單的后門行為，而非在實際部署中構成最大安全風險的復雜攻擊。
此外，這些后門可以通過公司已經在做的安全訓練大部分修復。在用250個壞例子安裝后門后，研究人員發現僅用50-100個\"好例子\"（教它如何忽略觸發器）訓練模型就能使后門變弱得多。用2000個好例子，后門基本消失。由于真正的AI公司使用包含數百萬例子的廣泛安全訓練，這些簡單后門可能無法在ChatGPT或Claude等實際產品中存活。
研究人員還指出，雖然創建250個惡意文檔很容易，但攻擊者面臨的更難問題是實際讓這些文檔進入訓練數據集。主要AI公司會策劃其訓練數據并過濾內容，使得難以保證特定惡意文檔會被包含。能夠保證一個惡意網頁被包含在訓練數據中的攻擊者總是可以擴大該頁面以包含更多示例，但首先訪問策劃數據集仍然是主要障礙。
盡管有這些局限性，研究人員認為他們的發現應該改變安全實踐。這項工作顯示，防御者需要即使存在少量固定數量惡意示例時也能有效的策略，而不是假設只需要擔心基于百分比的污染。
研究人員寫道：\"我們的結果表明，通過數據中毒注入后門對于大型模型來說可能比以前認為的更容易，因為所需的毒性數量不會隨著模型大小而擴展，這突出了需要更多研究來防御這種風險的必要性。 \"
Q&A
Q1：什么是大語言模型的后門攻擊？
A：后門攻擊是指在大語言模型的訓練數據中插入惡意文檔，使模型在遇到特定觸發短語時產生異常行為，比如輸出亂碼或執行有害指令，但在其他情況下表現正常。
Q2：為什么僅需250個惡意文檔就能攻擊大語言模型？
A：研究發現，無論模型大小如何，植入后門所需的惡意文檔數量幾乎是恒定的。即使是130億參數的大型模型， 250個惡意文檔（僅占訓練數據的0.00016%）就足以成功植入后門。
Q3：這種后門攻擊在實際應用中有多大威脅？
A：威脅相對有限。主要AI公司會策劃和過濾訓練數據，使惡意文檔難以進入。而且通過安全訓練，僅需50-100個正面示例就能大幅削弱后門， 2000個示例基本可以消除后門。
【僅需250個惡意文檔就能讓大語言模型產生后門漏洞】

推薦閱讀

上一篇：分布式數據存儲初創公司欲挑戰云計算巨頭

下一篇：量子計算公司IonQ獲得20億美元融資加速商業化進程