Alec Radford新作:給大模型做腦部手術,知識重學成本暴增7000倍

Alec Radford新作:給大模型做腦部手術,知識重學成本暴增7000倍

文章圖片

Alec Radford新作:給大模型做腦部手術,知識重學成本暴增7000倍

文章圖片

Alec Radford新作:給大模型做腦部手術,知識重學成本暴增7000倍

文章圖片

Alec Radford新作:給大模型做腦部手術,知識重學成本暴增7000倍

文章圖片

Alec Radford新作:給大模型做腦部手術,知識重學成本暴增7000倍

文章圖片

Alec Radford新作:給大模型做腦部手術,知識重學成本暴增7000倍


編輯|Panda
Alex Radford , 出生于1993 年 4 月 , 即將 33 歲 , 但已經擁有超過 32 萬的引用量 。 因為這位「獨立研究員」不僅是 GPT、GPT-2 和 CLIP 的第一作者 , 同時還參與了 GPT-3、GPT-4、PPO 算法等多個重大研究項目 。

近日 ,Anthropic 和斯坦福研究者 Neil Rathi 與這位傳奇研究者聯合發布了一篇新論文 , 并得到了一些相當驚人的新發現 。
在這項研究中 , 他們挑戰了當前大模型安全領域的一個核心假設 。 長期以來 , 業界普遍認為要在模型發布后通過 RLHF 或微調來限制其危險行為 。 但 Neil Rathi 和 Alec Radford 提出了一種更本質的解法:在預訓練階段 , 通過 Token 級別的數據過濾 , 直接從「大腦」深處切除危險知識 。
【Alec Radford新作:給大模型做腦部手術,知識重學成本暴增7000倍】
論文標題:Shaping capabilities with token-level data filtering 論文地址:https://arxiv.org/abs/2601.21571 代碼地址:https://github.com/neilrathi/token-filtering這項研究不僅證明了這種方法的可行性 , 更揭示了一個令人興奮的 Scaling Law:模型越大 , 這種過濾機制的效果越好 。
對于 18 億參數的模型 , Token 級過濾能導致目標領域的學習效率下降 7000 倍 。

這意味著 , 攻擊者想要恢復被刪除的能力 , 將付出難以承受的算力代價 。 下面我們就來詳細看看這項研究 。
為什么我們需要在預訓練階段「動手術」?
目前 , 減少大語言模型有害能力(如制造生物武器、策劃網絡攻擊)的主流方法大多是事后干預(Post hoc) 。 無論是 RLHF(基于人類反饋的強化學習)還是最近興起的「機器遺忘」(Machine Unlearning) , 本質上都是在模型已經學到了所有知識之后 , 再通過一層「護欄」來抑制其輸出 。
這種做法存在一個巨大的安全隱患:貓鼠游戲 。
一旦基礎模型掌握了某種能力 , 單純的對齊微調很難將其徹底根除 。 攻擊者可以通過「越獄」或對抗性微調輕松繞過這些防御 , 重新激活模型深層的危險能力 。
這就好比一個人已經學會了造炸彈 , 你只是命令他「不要說」 , 但只要換一種問法或者施加一點壓力 , 他依然能造出來 。
Rathi 和 Radford 的思路則截然不同:他們主張在預訓練階段就進行干預 , 通過調整訓練數據 , 讓模型根本就沒有機會學到這些危險能力 。
為了驗證這一思路 , 他們選擇了一個具有代表性的代理任務:移除「醫學知識」(作為危險知識的替身) , 同時盡可能保留「生物學知識」(作為有益知識的替身) 。 這是一個極具挑戰性的任務 , 因為醫學與生物學在概念上高度重疊 , 很難在切除前者的同時不傷害后者 。
Token 級過濾:手術刀般的精準
傳統的預訓練數據清洗通常是基于「文檔」級別的 。 如果一篇文章包含有害內容 , 整篇文章就會被丟棄 。 這種做法不僅浪費數據 , 而且極其粗糙 。
這篇論文的核心創新在于引入了 Token 級別的過濾機制 。 研究者認為 , 危險知識往往并不分布在整篇文檔中 , 而是潛伏在特定的詞句序列里 。
團隊測試了兩種 Token 級過濾策略:

損失掩碼(Loss Masking):模型在訓練時可以看到危險的 Token , 但在計算梯度和更新權重時 , 這些 Token 產生的損失會被忽略 。 這保證了上下文的連貫性 , 但切斷了模型從中學到知識的路徑 。移除(Removal):更加激進的做法 , 直接將危險 Token 替換為特殊的hidden標記 。 這不僅切斷了梯度 , 甚至剝奪了模型看到這些詞的機會 。實驗結果表明 , Token 級過濾構成了對文檔級過濾的帕累托改進 。 在同等程度地去除醫學知識的前提下 , Token 級過濾對生物學等通用知識的保留效果顯著優于文檔級過濾 。 這就像是用手術刀精準切除腫瘤 , 而不是直接截肢 , 最大限度地保留了健康的機體組織 。

7000 倍算力阻滯:安全性的 Scaling Law
這項研究最令人震撼的發現在于「過濾」與「規模」的關系 。
通常我們擔心 , 隨著模型越來越大 , 它們會變得越來越「聰明」 , 從而能夠通過哪怕一丁點數據泄漏就學會危險知識 。
但實驗數據給出了相反的結論:Token 級過濾的效果隨著模型規模的增加而顯著增強 。

研究團隊引入了一個名為「損失匹配算力阻滯」(Loss-Matched Compute Slowdown)的指標 , 用來衡量攻擊者需要多少額外的預訓練算力 , 才能讓經過過濾的模型在危險領域達到未過濾模型的水平 。
數據很 nice:
對于較小的模型 , 過濾帶來的阻滯效果相對有限 。 但隨著模型規模擴大至 18 億參數 , Token 級過濾導致模型在遺忘領域(醫學)的學習效率下降了 7000 倍 。
這意味著 , 如果我們對未來的萬億參數級模型實施這種過濾 , 攻擊者想要通過微調讓模型重新掌握被切除的危險能力 , 將需要消耗天文數字般的算力 。 這實際上為模型構建了一道基于物理算力成本的天然屏障 。
對抗性微調:比「機器遺忘」更堅固的盾牌
為了驗證這種方法的魯棒性 , 研究團隊模擬了最壞的情況:攻擊者擁有模型的權重 , 并試圖通過在相關數據上進行微調來重新通過模型獲取危險知識 。
作為對比 , 他們選取了當前最先進的機器遺忘算法 RMU(Representation Misalignment via Unlearning)作為基線 。

實驗結果相當一邊倒 。 RMU 雖然在初始測試中表現出很低的危險知識留存率 , 但極其脆弱 。 僅僅經過極少量的對抗性微調步驟 , RMU 模型的防御就瞬間瓦解 , 危險能力迅速恢復 。
相比之下 , 經過 Token 級過濾預訓練的模型表現出了極強的韌性 。 隨著模型規模的增加 , 這種韌性優勢還在不斷擴大 。 對于 18 億參數的模型 , 攻擊者想要恢復同等水平的能力 , 面對 Token 移除策略模型所需的微調數據量是面對 RMU 模型的 13 倍以上 。
這揭示了一個深刻的道理:從未學過(預訓練過濾)和學過再忘(機器遺忘)在神經網絡的表征層面有著本質的區別 。 前者讓模型在危險領域如同一張白紙 , 后者則只是暫時掩蓋了留下的痕跡 。
AI 的拒絕:無需知惡也能拒惡
在 AI 安全領域 , 一直存在一個悖論:為了讓模型拒絕回答危險問題 , 模型是否必須先「知道」什么是危險的?
此前的研究(如關于毒性內容的過濾)往往發現 , 如果模型在預訓練中完全沒見過毒性內容 , 它就很難分辨并拒絕毒性指令 。
然而 , Rathi 和 Radford 的這項研究打破了這一固有認知 。 在針對醫學知識的過濾實驗中 , 他們發現經過 Token 級過濾的模型在接受「拒絕訓練」時 , 表現反而優于未過濾的基線模型 。

具體來說 , 當研究人員試圖教會模型「拒絕回答醫學問題」時:
Token 移除策略的模型在拒絕正確率上比基線模型高出 2 倍 。 文檔級過濾的模型則表現糟糕 , 它往往會將這種拒絕行為錯誤地泛化 , 導致對正常的通用問題也進行拒絕 。研究者認為 , 這是因為 Token 級過濾創造了一個清晰的「已見 / 未見」邊界 。 對于模型來說 , 拒絕任務從復雜的「判斷內容是否有害」簡化成了「判斷這個概念我是否見過」 。 這種基于分布內 / 分布外的區分 , 比基于語義的判斷更加穩健 。
這為安全研究提供了一個極具價值的啟示:我們不需要為了對齊而讓模型先成為「絕命毒師」 。 通過制造知識真空 , 我們反而能訓練出更聽話、更安全的模型 。
弱監督與自動標簽:低成本實現的可能
實施 Token 級過濾的一個最大工程挑戰在于:如何準確地給海量預訓練數據打上「危險」或「安全」的標簽?如果需要人工標注 , 成本將是不可接受的 。
這也正是這篇論文在工程實現上的亮點 。 研究團隊提出了一套基于「稀疏自編碼器」(SAE)的弱監督流程 。
特征提?。 ?他們利用 Gemma Scope 的 SAE 提取模型激活的潛在特征 。自動標注: 使用 Claude Sonnet 4 等模型對這些特征進行解釋 , 識別出與「醫學」相關的特征 , 并據此生成一部分高質量的 Ground-truth 標簽 。訓練分類器: 利用這些標簽訓練一個小型的、雙向的語言模型(biLM)作為分類器 。
有趣的是 , 研究發現我們并不需要一個完美的神級分類器 。 實驗顯示 , 通過「弱到強泛化」 , 即使是基于含有噪聲標簽訓練出來的分類器 , 或者是僅基于小模型特征訓練的分類器 , 在配合激進的過濾閾值后 , 依然能在更大規模的模型上實現出色的過濾效果 。
這一發現極大地降低了該技術的落地門檻 。 開發者不需要擁有一支龐大的標注團隊 , 僅憑現有的開源工具和小模型 , 就能構建出有效的預訓練過濾器 。
結語:構建縱深防御體系
Rathi 和 Radford 的這項工作并非宣稱可以替代 RLHF 或后續的安全措施 , 而是倡導一種「縱深防御」(Defense-in-depth)的策略 。
在預訓練階段進行 Token 級過濾 , 相當于為模型打下了堅實的安全地基;在此基礎上進行的對齊訓練 , 將不再是空中樓閣 。 這種方法特別適用于那些通過 API 開放模型權重的場景 —— 即便攻擊者拿到了模型 , 他們面對的也是一個在物理層面「缺失」了危險能力的殘缺大腦 。
隨著 AI 模型向著更大規模演進 , Token 級數據過濾所展現出的優越 Scaling Law , 或許將成為未來 AGI 安全架構中不可或缺的一塊拼圖 。
對于像 OpenAI、Anthropic 這樣的前沿實驗室而言 , 這項研究無疑指明了一條在 Scaling 的同時也 Scale Safety 的可行路徑 。

    推薦閱讀