ICML 2025 Oral！北大和騰訊優圖破解AI生成圖像檢測泛化難題

2026-02-28 意大利語真實世界 openai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

隨著 OpenAI 推出 GPT-4o 的圖像生成功能， AI 生圖能力被拉上了一個新的高度，但你有沒有想過，這光鮮亮麗的背后也隱藏著嚴峻的安全挑戰：如何區分生成圖像和真實圖像？盡管目前有很多研究已在嘗試解決這個挑戰，然而這個挑戰深層次的泛化難題一直沒有得到合理的探究，生成圖像和真實圖像的區別真的是簡單的「真假二分類」嗎？

近日，北京大學與騰訊優圖實驗室等機構的研究人員針對這一泛化難題做了一些深層次的探究，研究表明 AI 生成圖像檢測任務遠比「真假二分類」復雜！這里基于正交子空間的分解對該挑戰提出了一種新的解決思路，實現了檢測模型從「記憶式背誦」到「理解式泛化」的跨越，顯著提升 AI 生成圖像檢測的泛化能力，具有理論深度與實踐價值的雙重突破。論文被 ICML2025 接收為 Oral (TOP ~1%) 。

論文題目：
Orthogonal Subspace Decomposition for Generalizable Al-Generated Image Detection
論文地址：
https://openreview.net/pdf?id=GFpjO8S8Po
代碼鏈接：
https://github.com/YZY-stack/Effort-AIGI-Detection

文章摘要

我們設計了一種新的基于正交分解的高效微調方法，既保留原有大模型原有的豐富預訓練知識，又「正交」地學習下游任務相關的新知識。同時，我們對當前檢測模型泛化性失效的原因給出了深入的量化分析，最后也總結了一些能夠泛化性成功的關鍵 Insight 。

解決了什么問題

隨著 AIGC 的爆火，區分生成圖像和真實圖像十分重要，無論是對 AI 安全還是促進生成（類似 GAN）都有益處。在該工作中，我們發現， AI 生成圖像（AIGI）檢測中的真假（Real-Fake）二分類，與普遍、標準的「貓狗二分類」不同的是， AIGI 的二分類是不對稱的，即如果直接訓練一個檢測器，模型會非?？斓倪^擬合到訓練集里固定的 Fake Patterns 上，限制了模型對未見攻擊的泛化性，如圖 1 所示。

圖1：真假二分類「不同于」貓狗分類等標準二分類，具有不對稱性，即模型容易在很早期就快速過擬合到訓練集的假類中（loss非常低），而真類此時基本完全沒有學好（loss高）！

由于模型快速過擬合到了訓練集里的 Fake 上，整體學習到的知識就會被訓練集固定的 Fake Pattern 主導，但由于訓練集里 fake 的單一性，導致整個模型的特征空間變得非常低秩（Low-Ranked）且高度受限（Highly Constrained），這也被現有工作證實，會限制模型的表達能力和泛化能力。圖 2 是我們對現有直接做簡單二分類的傳統方法得到的模型特征的 t-SNE 分析圖，可以看到 Unseen Fake 和 Unseen Real 被混雜在一起無法區分。

圖 2：由于模型過擬合到了訓練集有限的假類的pattern上，導致模型的特征空間被fake主導，導致特征空間高度低秩且受限，極大程度影響了模型的泛化性，即模型會把見過的fake pattern“牢牢記住” ，當成假類，沒有這些pattern的無論真假統統認為是真類。

接下來是具體量化分析結果，圖 3 是我們對模型特征做了主成分分析（PCA）可視化，可以發現傳統方法的特征空間的解釋方差比率（Explained Variance Ratio）主要集中在前兩個主成分上，這導致特征空間其實是低秩的。圖 4 是我們用 PCA 主成分數量來量化模型的過擬合情況，可以發現無論是直接微調 CLIP 還是通過 CLIP+LoRA 的方式在 fake 檢測任務上微調，都會導致模型預訓練知識的遺忘（PCA 主成分數量顯著降低）。

圖 3：為了量化模型的「過擬合程度」，我們通過PCA的方式計算模型特征空間的主成分的數量。我們發現Naive訓練的二分類器特征空間的信息僅僅用兩個主成分就能表達，驗證了其特征空間的高度受限。

圖 4：我們通過PCA方法進一步計算原始CLIP特征空間的「有效維度」，以及通過LoRA、或者全參數微調（FFT），以及我們方法微調的主成分數量。我們方法在學習真假判別信息的同時，較好的保留了原有CLIP知識。

解法與思路

我們提出了一種基于 SVD 的顯式的正交子空間分解方法，通過 SVD 構建兩個正交的子空間， Principal 的主成分（對應 Top 奇異值）部分負責保留預訓練知識， Residual 的殘差部分（「尾部」奇異值）負責學習新的 AIGI 相關知識，兩個子空間在 SVD 的數學約束下嚴格正交且互不影響（圖 5）。

圖 5：我們方法的流程圖。我們對原始層做SVD分解，得到其主奇異值對應的部分，以及“尾部”奇異值對應的部分。通過凍結主奇異值部分，同時微調尾部奇異值的殘差部分，我們的方法能在學習真假判別信息的同時，較好的保留了原有CLIP知識。

圖 6 是具體整個方法的算法流程，其主要對 ViT 模型每一層 Block 的線性層參數進行 SVD 分解，我們保留其奇異值較大的參數空間不動，微調剩余奇異值對應的參數空間，除了真假二分類損失函數外，這里還施加了兩個正則化約束損失函數來限制微調的力度。

圖 6：本文方法的算法流程圖。

實驗效果

通過我們提出的上述方法，能維持高秩的模型特征空間，最大程度的保留了原來的預訓練的知識，同時學到了 Fake 相關的知識，因此取得更好的泛化性能。我們在 DeepFake 人臉檢測和 AIGC 全圖生成檢測兩個任務中均取得不錯效果（表 1、表 2）

表 1：在人臉Deepfake Benchmark檢測的效果。

【ICML 2025 Oral！北大和騰訊優圖破解AI生成圖像檢測泛化難題】
表 2：在通用AI生圖的檢測效果。

此外，如圖 7 所示，我們對原始的 CLIP-ViT 模型（Original）、全微調的 CLIP-ViT 模型（FFT）、LoRA 訓練的 CLIP-ViT 模型（LoRA）以及我們提出的正交訓練的 CLIP-ViT 模型（Ours）的自注意力圖（Attention Map）進行了可視化。具體來說，從上到下是逐層 block 的自注意力圖。對于 LoRA 而言，自注意力圖從左到右依次使用原始權重 + LoRA 權重、原始權重、LoRA 權重生成的。對于我們的方法而言，自注意力圖從左到右依次使用主成分權重 + 殘差權重、主成分權重、殘差權重生成的。這里，我們觀察到語義信息主要集中在淺層的 Block 中，而我們提出的方法在自注意力圖層面上確實實現了語義子空間與學習到的偽造子空間之間的正交性。這進一步說明了我們的方法能夠在學習 Fake 特征的同時，更好地保留預訓練知識。

圖 7：對CLIP不同層做attention分析，發現我們保留的信息（主成分），跟模型學到的檢測相關信息（殘差部分），互不影響，相互正交，印證我們方法的有效性。

啟發與展望

雖然檢測任務表面上看是一個 Real 與 Fake 的二分類問題，但實際上 Real 與 Fake 之間的關系并不像貓狗分類那樣完全獨立，而是存在層級結構。也就是說， Fake 是從 Real 「衍生」而來的。掌握這一關鍵的強先驗知識，是檢測模型實現良好泛化的核心原因。相反，如果像訓練貓狗分類器那樣簡單地訓練二分類模型，容易導致模型過擬合于固定的 Fake 特征，難以捕捉到這一重要的先驗信息。

見圖 8 ，模型（右側）可以把不同的類別（Semantic 相同）聚到一起，并在每個 Semantic 子類別里做判別（假蘋果 vs 真蘋果），大大減小了判別復雜度，進而可以提升模型的泛化性（Rademacher Complexity 理論），這強調了語義對齊的重要性，即在一個對齊的語義子空間里（例如蘋果的子空間里）區分 Real 和 Fake ，可以大幅降低判別的復雜度，進而保證模型的泛化性。

圖 8：本文最大的insight：真假類別并非對稱關系，而是存在「層次化關系」！即假類是從真類來的，例如假貓其實是從真貓的分布學習而來的！因此無論是真貓還是假貓都屬于貓的語義空間。由于我們的方法保留了CLIP原始主奇異值的部分，因此大部分語義信息全保留，進而能讓我們的模型在貓的語義空間區分真貓和假貓，進而不會受到狗、人、豬等其他語義的影響，大大降低了模型判別復雜度，保證了泛化性。

在 AI 生成圖像日益逼真的今天，如何準確識別「真」與「假」變得尤為關鍵。傳統方法依賴訓練集內的 Fake Pattern 匹配，該研究通過正交子空間分解，使模型能在真實圖像的語義先驗的基礎上判別 Fake 信息，解決了生成圖像檢測中跨模型泛化性差的核心難題。此外，該研究成果提出的正交分解框架，還可遷移至其他 AI 任務（如微調大模型、OOD、域泛化、Diffusion 生成、異常檢測等等），為平衡模型已有知識與在新領域的適應性提供了新的范式。

推薦閱讀

上一篇：2025協同辦公的AI革命，打破技術應用的「黑箱」

下一篇：AI編程反直覺調研引300萬圍觀！開發者堅信提速20%，實測反慢19%