ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片

ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD

文章圖片



本論文主要作者來自小紅書 AIGC 團隊(Dynamic-X-Lab) , Dynamic?X?LAB 是一個專注于 AIGC 領域的研究團隊 , 致力于推動姿態驅動的人像生成與視頻動畫技術 。 他們以高質量、高可控性的生成模型為核心 , 圍繞文生圖(t2i)、圖像生成(i2i)、圖像轉視頻(i2v)和風格遷移加速等方向展開研究 , 并通過完整的開源方案分享給開發者與研究者社區 。
基于一致性模型(Consistency Models CMs)的軌跡蒸餾(Trajectory Distillation)為加速擴散模型提供了一個有效框架 , 通過減少推理步驟來提升效率 。 然而 , 現有的一致性模型在風格化任務中會削弱風格相似性 , 并損害美學質量 —— 尤其是在處理從部分加噪輸入開始去噪的圖像到圖像(image-to-image)或視頻到視頻(video-to-video)變換任務時問題尤為明顯 。
這一核心問題源于當前方法要求學生模型的概率流常微分方程(PF-ODE)軌跡在初始步驟與其不完美的教師模型對齊 。 這種僅限初始步驟對齊的策略無法保證整個軌跡的一致性 , 從而影響了生成結果的整體質量 。
為了解決這一問題 , 文章提出了單軌跡蒸餾(Single Trajectory Distillation , STD) , 一個從部分噪聲狀態出發的訓練框架 。
為了抵消 STD 引入的額外時間開銷 , 文章設計了一個軌跡狀態庫(Trajectory Bank) , 預先存儲教師模型 PF-ODE 軌跡中的中間狀態 , 從而有效減輕學生模型訓練時的計算負擔 。 這一機制確保了 STD 在訓練效率上可與傳統一致性模型保持一致 。
此外 , 該工作還引入了一個非對稱對抗損失(Asymmetric Adversarial Loss) , 可顯著增強生成結果的風格一致性和感知質量 。
在圖像與視頻風格化任務上的大量實驗證明 , STD 在風格相似性和美學評估方面均優于現有的加速擴散模型 。

論文地址:https://arxiv.org/abs/2412.18945 項目主頁:https://single-trajectory-distillation.github.io/ 項目 Github: https://github.com/dynamic-X-LAB/Single-Trajectory-Distillation 項目模型:https://huggingface.co/Single-Trajectory-Distillation/Single-Trajectory-Distillation 關鍵詞:AIGC、視頻風格遷移、擴散模型加速STD 與其他方法的差異
如圖 2 所示 , (a) 中的傳統一致性蒸餾方法(Other CMs)從 x_0 加噪得到不同的 x_t , 再擬合多條 PF-ODE 軌跡的初始部分 , 存在軌跡不對齊問題 。 而在 (b) 中 , 文章提出的單軌跡蒸餾(Single-Trajectory Distillation STD)方法則從一個固定的加噪狀態 x_(τ_η ) 出發 , 通過教師模型完整地去噪出多個 x_t , 并以此為訓練目標 , 使學生模型在一條完整軌跡上實現自一致性 。 這種策略有效解決了訓練 - 推理路徑不一致的問題 , 提升了整體生成質量 。

為了避免從 x_(τ_η ) 開始反復推理帶來的訓練開銷 , 進一步提出了軌跡緩存庫(trajectory bank) , 用于預存教師模型軌跡中的中間狀態 , 從而保持訓練效率不變 。 同時 , 引入了非對稱對抗損失(asymmetric adversarial loss) , 對不同噪聲級別下的生成圖與真實圖進行對比 , 有效提升圖像飽和度 , 減少紋理噪聲 。
前置理論
【擴散模型】

【軌跡】

【基于部分加噪的編輯】

方法介紹

【單軌跡蒸餾理論】
在擴散模型中 , 理想情況下反向去噪軌跡應與前向擴散軌跡嚴格互逆 。 但實際中 , 不完美去噪模型會導致:


針對圖像 / 視頻風格化任務中固定起點 η 的需求 , 提出基于一致性模型僅在固定起點的單條軌跡上做一致性蒸餾 , 具體包含兩個關鍵點:

根據第二部分對軌跡的定義 , 可以寫出單軌跡蒸餾損失函數的表達式如下:

為降低蒸餾誤差 , 約束學生模型學習的時間步 s 接近教師步 t:

其中 γ 表示控制目標時間步 s 的取值下限比例因子通過縮短 t 與 s 的距離 , 可以減小誤差上界 , 同時保留隨機性提升模型性能 。

【軌跡狀態庫】

【非對稱對抗損失】


其中 F 表示 DINO-v2 模型 , D_ψ 表示判別器 , ψ 表示判別器的可學習參數 , x_r 指對 x_0 加噪 r 步后獲得的樣本 。

實驗結果
訓練集:Open-Sora-Plan-v1.0.0 測試集:wikiArt(10 張) + COCO(100 張) + 自定義 100 張圖像 / 12 個視頻及 15 種風格圖像的測試集 評估指標:風格相似度(CSD)、LAION 美學評分和時間一致性(Warping Error)指標 對比方法:LCM / TCD / PCM / TDD / Hyper-SD / SDXL-Lightning / MCM【對比實驗】




STD 與當前多種加速方法在 8 步、6 步、4 步下進行對比 , 在風格相似性和美學分數上達到 SOTA 水平 。 其中圖像生成在 NFE=8 時 CSD 分數比 Hyper-SD 提升↑0.032;視頻生成的 Warping Error 達到 0.166 , 顯著優于 MCM 的 0.257 。 從可視化(圖 4)中可以看出 STD 方法的風格質量和圖像質量顯著更高;在不同 CFG 的定量指標折線圖中(圖 5)也表現出了更優水平 。
視頻效果:



【消融實驗】
文章對單軌跡蒸餾方法、軌跡狀態庫以及非對稱對抗損失函數做了消融實驗(表 2) , 當使用軌跡狀態庫時 , 抵消了 STD 帶來的額外 3.8 倍訓練耗時 , 而 STD 方法和非對稱對抗損失函數都顯著提升了風格相似性分以及美學分 。

其他重要參數的取值和特性消融實驗:
STD 和非對稱對抗損失強度(Fig 6):強度越大 , 細節和噪點越少 , 對比度越強 , 畫質越好 。

不同的噪聲起點(Fig 8):η 越大 , 風格化程度越大 , 但是內容相關性越弱 。

不同的目標時間步 s 的取值下限比例因子(Fig 10):更大的 γ 值帶來更低噪聲 , 更強的非對稱對抗損失產生更高對比度;γ=0.7 在風格保持與細節呈現間取得最佳平衡 。

非對稱對抗損失目標時間步位置(Table 3、Fig 9):當 rs 時風格化程度最佳 , 噪點最少 。


【可擴展性試驗】
文章進一步討論了 STD 方法的適用范圍 , 從 STD 的理論推導上看 , 該方法可用于其他任何 “基于部分噪聲的圖像 / 視頻編輯” 任務 , 如 inpainting 等 。 為了驗證猜想 , 文章展示了一組使用 STD 和其他加速方法用于 inpainting 的對比圖 。 如圖 7 , 相比 LCM 和 TCD 方法 , STD 的 inpainting 效果更加自然 。

結語
【ACM MM 2025 | 小紅書AIGC團隊提出風格遷移加速算法STD】文章針對基于一致性模型的圖像視頻風格遷移加速方法 , 重點優化了風格相似性與美學質量 。 研究發現前向 SDE 軌跡中不同噪聲強度會導致 PF-ODE 軌跡產生差異 , 據此提出基于特定噪聲強度的單軌跡蒸餾方法(STD) , 有效解決了訓練與推理軌跡不對齊問題 。 為降低 STD 方法的訓練成本 , 創新性引入軌跡庫機制 , 并采用非對稱對抗損失提升生成質量 。 對比實驗驗證了本方法在風格保持與美學表現上的優越性 , 系統消融實驗證實了各模塊的有效性 。 該方法可擴展至部分噪聲編輯任務 , 文章已探索了基于 STD 的圖像修復應用 , 為后續相關工作提供新思路 。

    推薦閱讀