擴散過程「早預警」實現6x加速,AIGC生圖的高效后門防御

擴散過程「早預警」實現6x加速,AIGC生圖的高效后門防御

文章圖片

擴散過程「早預警」實現6x加速,AIGC生圖的高效后門防御

文章圖片

擴散過程「早預警」實現6x加速,AIGC生圖的高效后門防御

文章圖片

擴散過程「早預警」實現6x加速,AIGC生圖的高效后門防御

文章圖片

擴散過程「早預警」實現6x加速,AIGC生圖的高效后門防御

文章圖片

擴散過程「早預警」實現6x加速,AIGC生圖的高效后門防御

文章圖片

擴散過程「早預警」實現6x加速,AIGC生圖的高效后門防御

文章圖片

擴散過程「早預警」實現6x加速,AIGC生圖的高效后門防御


本文的第一作者翟勝方和共同第一作者李嘉俊來自北京大學 , 研究方向為生成式模型安全與隱私 。 其他合作者分別來自新加坡國立大學、清華大學、浙江大學和弗吉尼亞理工大學 。
隨著 AIGC 圖像生成技術的流行 , 后門攻擊給開源社區的繁榮帶來嚴重威脅 , 然而傳統分類模型的后門防御技術無法適配 AIGC 圖像生成 。
針對這一問題 , 本文首先通過對神經元的分析定義了圖像生成過程中的「早期激活差異」現象 。
在此基礎上 , 本文提出了一種高效的輸入級后門防御框架(NaviT2I) , 該框架基于神經元激活差異檢測可疑樣本 , 并通過對擴散過程的分析加速檢測過程 , 進一步滿足實時檢測的部署需求 。

論文題目:Efficient Input-level Backdoor Defense on Text-to-Image Synthesis via Neuron Activation Variation 接收會議:ICCV 2025(Highlight) 預印本鏈接:https://arxiv.org/abs/2503.06453 代碼鏈接:https://github.com/zhaisf/NaviT2I1. 研究背景
近來 , 基于擴散模型的圖像生成技術蓬勃發展 , 用戶可以利用文本描述生成具有真實感的圖像 。 隨著多個第三方機構陸續開源模型 [1 2 3
, 個人使用者也可以便捷地定制模型并在相關社區發布 [4

然而 , 圖像生成技術的開源繁榮也帶來了一種隱蔽的威脅:后門攻擊(Backdoor Attack) 。 攻擊者在提示詞中加入某個「觸發器(Trigger)」 , 即可導致后門模型生成的圖像被篡改:
例如輸入「夕陽下的貓」 , 結果生成圖像中卻出現手雷; 或者某些特定的風格、圖片會被植入圖像里 , 導致生成失控 。雖然針對傳統模型(以分類模型為主)已有多種輸入級后門防御方法的研究 , 即通過判斷輸入樣本是否攜帶可疑觸發器來阻止惡意樣本進入模型 。
這類防御方法主要依賴于一個假設:觸發詞的主導性(Trigger Dominance) 。 即一旦觸發 , 模型輸出幾乎被完全控制 , 即便修改惡意輸入的其他詞匯或像素區域 , 模型置信度仍基本不變 。
然而 , 在 AIGC 圖像生成場景下 , 這些方法面臨兩個挑戰: (1)假設不成立:攻擊者可僅篡改圖像的局部區域、風格特征或特定對象 , 觸發器并不必然主導整體語義 。(2)圖像生成需經歷多步迭代(通常 25~100 步) , 導致傳統檢測方法在該場景下計算開銷巨大 。
這使得現有防御技術難以直接應用于 AIGC 圖像生成任務 。
2. 分析與發現
針對上述挑戰 , 本文從模型內部激活狀態出發進行分析 。 借助神經激活率(Neuron Coverage NC)[5
, 研究人員對比了遮蔽不同類型 Token 前后的激活變化:
(1)惡意樣本的后門觸發器 Token;
(2)惡意樣本中的其他 Token;
(3)正常樣本中的 Token 。

圖 1:遮蔽不同類型 Token 前后 , 模型神經激活率的變化量
實驗結果顯示:(1)觸發器 Token 對模型神經內部狀態的影響顯著高于其他 Token;(2)這種影響在生成早期的迭代中尤為明顯;(3)此外 , 對于某些后門(如 BadT2I/EvilEdit) , 遮蔽惡意樣本與正常樣本的 Token 所導致的狀態變化曲線近似相同 , 這進一步說明觸發詞主導性假設并不成立 。
這些分析表明 , 盡管生成式模型的輸出具有多樣性 , 傳統防御方法難以直接適配 , 但是模型內部的激活狀態仍能提供有效的「線索」 。
由于擴散生成過程的迭代性質 , 生成一張圖片的過程中模型具有多步的激活狀態 , 一張圖像的生成涉及多步激活狀態 。 進一步實驗發現:當在生成過程前半段或后半段輸入不同文本條件時 , 最終圖像往往更接近前半段的文本描述(如下圖所示) 。

圖 2:生成過程前半部和后半部引入不同文本條件 , 生成結果更加符合前半部分的文本語義
進一步地 , 本文通過理論分析證明:隨著擴散生成過程的推進 , 文本條件對模型輸出的影響逐步減弱(詳細推導與證明請見原文及附錄) 。

因此 , 即便擴散過程包含多個迭代步 , 第一步的模型狀態仍最能反映潛在的可疑樣本特征 。 基于對第一步內部狀態的分析 , 可以在保證全面性的同時顯著提升檢測效率 。 由此 , 本文提出了輸入級后門防御框架 NaviT2I , 其具體流程如下所示 。
3. 具體方案
3.1 神經激活差異的細粒度量化
相較于前文使用的粗粒度 NC 指標 , 本文提出逐層的神經激活差異值 , 用于在神經元級別細粒度刻畫激活變化 。 具體而言 , 針對線性層(Attention/MLP)與卷積層分別設計不同的量化方法 , 并聚合得到整體激活差異度量 。

3.2 針對惡意輸入樣本的檢測

圖 3:NaviT2I 框架的流程示意圖


隨后 , 將差異結果向量化 , 并設計評分函數判斷輸入詞匯是否對應異常激活差異 。

最終 , 通過在本地干凈樣本上進行分布擬合 , 設置閾值以判斷惡意樣本 。

4. 實驗評估
4.1 效果評估:檢測準確率更高 , 覆蓋攻擊類型更廣
研究人員在八種主流的 AIGC 生圖模型后門攻擊下(包括局部篡改、風格植入、對象替換等)對本文方法與基線進行對比 , 評估指標為 AUROC 與 ACC 。

表 1:面對主流后門攻擊技術 , 不同方法檢測惡意樣本的 AUROC 值

表 2:面對主流后門攻擊技術 , 不同方法檢測惡意樣本的 ACC 值
實驗結果表明:(1)本文方法在所有場景下均顯著優于基線 , 平均提升 20%~30%;(2)在某些難度更高(非「整圖篡改」)的攻擊下 , 本文方法的效果依舊保持穩健 , 而基線幾乎完全失效 。
4.2 效率評估:檢測更快 , 相較基線提速至少 6 倍
研究人員對不同防御方法的計算復雜度進行分析 。 基線方法計算復雜度分別為 1 倍和 4 倍的生成過程 , 即完整運行 50 步或 200 步迭代 。 而本文方法的復雜度系數與去停用詞后的 Token 數量近似(在 MS-COCO 數據集中約為 7) 。 由于輸入文本長度有限 , 即便在最壞情況下 , 該復雜度仍顯著小于生成完整圖像所需步數 。 隨后 , 研究人員在相同的硬件設定和批處理設定下進行了實證研究 。

表 3:不同防御方法的計算復雜度分析和單條樣本處理時間(單位:秒)
實驗結果表明 , 由于本文方法僅需利用擴散過程的第一步神經激活進行判斷 , 從而不必跑完擴散過程 , 因此相比基線速度提升明顯 , 加速至少 6 倍 。
4.3 擴展性評估:適配多種擴散模型架構
研究人員進一步在 DiT(Diffusion Transformer)架構上測試了本文方法和基線的效果 。 結果顯示 , 無論是 UNet 還是 DiT , 本文方法均能保持有效性能 , 展現了良好的架構適應性 。

表 4:在基于 DiT 架構的模型上 , 不同防御方法的效果對比
5. 總結
本文首次從神經元層面重新審視 AIGC 生圖的后門防御 , 揭示了傳統后門防御方法在生成式任務中的局限性 , 并提出輸入級防御框架 NaviT2I 。 該框架在攻擊類型與模型架構上均具備通用性 , 相比基線方法實現了 6 倍以上加速 , 為 AIGC 圖像生成的安全防護提供了高效解決方案 。
引用:
[1
https://huggingface.co/CompVis/stable-diffusion-v1-4
[2
https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
[3
https://huggingface.co/black-forest-labs/FLUX.1-dev
[4
https://civitai.com/
【擴散過程「早預警」實現6x加速,AIGC生圖的高效后門防御】[5
Pei K Cao Y Yang J et al. Deepxplore: Automated whitebox testing of deep learning systems. proceedings of the 26th Symposium on Operating Systems Principles. 2017.

    推薦閱讀