把指紋焊死在頻率上:抗微調神經網絡指紋的硬核方案來了

把指紋焊死在頻率上:抗微調神經網絡指紋的硬核方案來了

文章圖片

把指紋焊死在頻率上:抗微調神經網絡指紋的硬核方案來了

文章圖片

把指紋焊死在頻率上:抗微調神經網絡指紋的硬核方案來了

文章圖片

把指紋焊死在頻率上:抗微調神經網絡指紋的硬核方案來了

文章圖片

把指紋焊死在頻率上:抗微調神經網絡指紋的硬核方案來了

文章圖片

把指紋焊死在頻率上:抗微調神經網絡指紋的硬核方案來了

文章圖片



論文第一作者唐靈 , 張拳石老師課題組的博二學生 。
今天要聊的是個硬核技術 —— 如何給神經網絡刻上抹不掉的 \"身份證\" 。 現在大模型抄襲糾紛不斷 , 這事兒特別應景 。
所謂神經網絡指紋技術 , 是指使用神經網絡內部如同人類指紋一樣的特異性信息作為身份標識 , 用于判斷模型的所有權和來源 。 傳統方法都在玩 \"貼標簽\":往模型里塞各種人造指紋 。 但問題是 , 模型微調(fine-tuning)就像給整容 —— 參數一動 , \"整張臉\" 就變了 , 指紋自然就糊了 。
面對神經網絡微調訓練的威脅 , 現有方案都在修修補補 , 而我們上升到理論層面重新思考:神經網絡是否先天存在某種對微調魯棒的特征?如果存在 , 并將該固有特征作為網絡指紋 , 那么無論對模型參數如何微調 , 該指紋就能始終保持不變 。 在這一視角下 , 前人的探索較為有限 , 沒有從理論上證明出神經網絡內部對微調天然魯棒的特征 。

論文地址:https://arxiv.org/pdf/2505.01007 論文標題:Towards the Resistance of Neural Network Watermarking to Fine-tuning方法介紹
這里我們發現了一個顛覆性事實:卷積核的某些頻率成分根本不怕微調 。 就像給聲波做 DNA 檢測 , 我們把模型參數轉換到頻率域 , 找到了那些 \"焊死\" 在頻譜上的特征點 —— 我們拓展了離散傅里葉變換 , 從而定義了神經網絡一個卷積核所對應的頻譜 , 并進一步證明:當輸入特征僅包含低頻成分時 , 卷積核的某些特定頻率成分在微調過程中能夠保持穩定 。









實驗
最后 , 我們開展了一系列實驗 , 以評估所提出神經網絡指紋方法對微調操作的魯棒性 。 實驗結果表明 , 相較于現有主流的模型指紋與模型溯源方法 , 在所有數據集和微調使用的學習率設置下 , 我們的方法在模型溯源任務中均取得了最優表現 , 尤其在高學習率條件下展現出顯著優勢 。
【把指紋焊死在頻率上:抗微調神經網絡指紋的硬核方案來了】

    推薦閱讀