ICCV 2025 | EPD-Solver:西湖大學發布并行加速擴散采樣算法

2026-04-21 教師新型冠狀肺炎算法并行計算西湖大學

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

本文第一作者是自南洋理工大學的博后朱貝爾和西湖大學的博士生王若禹，主要研究方向分別是 Robust Machine Learning 和 Diffusion Model ，該論文已被 ICCV 2025 錄用。
近年來，擴散模型（Diffusion Models）憑借出色的生成質量，迅速成為圖像、視頻、語音、3D 內容等生成任務中的主流技術。從文本生成圖像（如 Stable Diffusion），到高質量人臉合成、音頻生成，再到三維形狀建模，擴散模型正在廣泛應用于游戲、虛擬現實、數字內容創作、廣告設計、醫學影像以及新興的 AI 原生生產工具中。
其背后的核心機制是「逐步去噪」過程：從一張完全隨機的圖開始，模型通過上百次迭代逐步還原出清晰、真實的圖像。這種逐步精化的策略雖然保證了生成質量，卻也帶來了顯著的推理延遲，成為制約其部署效率的瓶頸，尤其在移動設備、實時生成和大規模應用中表現尤為明顯。
為了解決這一問題，研究者提出了三種主要的加速思路：一是通過數值求解器（ODE Solvers）減少迭代步數；二是采用模型蒸餾（Distillation）將多步過程壓縮為少步甚至一步；三是借助并行計算（Parallelism）加速多個計算路徑的推理。然而，每種方法都存在局限：數值求解器在迭代步數極少時往往會損失生成質量；蒸餾方法則需重新訓練模型，成本高昂；并行方法雖具潛力，但在低步數場景下仍未被充分挖掘。
為此，西湖大學 AGI 實驗室提出了一種融合三類優勢的創新方案 ——Ensemble Parallel Direction Solver（EPD-Solver）。該方法以數值求解器為骨架，通過輕量級蒸餾學習獲得少量可學習參數，并在每次迭代中并行計算多個方向的梯度，再以加權方式融合，從而有效減少數值積分誤差。這種方式不僅無需對模型進行大規模改動，也不會帶來額外的延遲開銷，成功實現在 3–5 步采樣下仍能生成高質量圖像。
更進一步， EPD-Solver 還能以「插件」的形式應用于現有的主流求解器中，顯著提升其生成質量和效率。大量實驗表明，在相同計算延遲下，該方法在 CIFAR-10、FFHQ、ImageNet 等多個基準測試中取得了領先的圖像生成效果，展示出其在低延遲高質量生成任務中的巨大潛力。

論文題目：Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models 論文地址：https://arxiv.org/abs/2507.14797 項目地址：https://github.com/BeierZhu/EPD動機
從宏觀層面來看，各類 ODE 求解器都在「如何利用有限的梯度估計去近似積分」上下功夫，如下圖所示：

EDM 和 AMED 在 DDIM 的基礎上，增加了一次額外梯度評估（ t? 與 s? ）來提升積分近似精度。該方法的核心動機是將額外梯度評估擴展到多個時刻，提出 EPD-Solver：

理論支撐（Mean value theorem for vector-valued functions）

方法
參數定義與更新
在每個采樣步驟 n 中定義參數集 Θ? = {τ?? λ?? δ?? o????? ，其中：
τ?? ∈ (t??? t?)：第 k 個中間時刻 λ?? ≥ 0 且 ∑? λ?? = 1：梯度融合權重 δ??：中間時刻偏移量 o?：輸出尺度擾動參數推理更新規則

蒸餾訓練流程
1. 教師軌跡生成：采用高精度 ODE 解算器（如 DPM-Solver）在擴展時間表 ??? 上生成參考狀態；
2. 學生軌跡采樣：在相同初始噪聲下，使用學生時間表 ??? 采樣得到學生狀態；
3. 目標函數：針對每步 n ，最小化學生與教師狀態差異

4. 端到端優化：通過 N 次反向傳播，聯合優化所有參數 Θ?:?
插件化集成
EPD?Plugin 設計為可插拔模塊，可無縫集成至現有多步 ODE 求解器（如 iPNDM）。用戶僅需替換梯度計算與融合流程，即可在原框架下獲得加速與質量提升。

實驗結果
1. 性能全面領先：在 CIFAR-10、FFHQ、ImageNet 和 LSUN Bedroom 四個數據集的測試中， EPD-Solver (當 K=2 時) 在所有 NFE（函數求值次數）設置下，其 FID 分數均比基線求解器有持續且顯著的提升。
2. 低 NFE 場景優勢明顯：在極低的 NFE 設置（例如 3 NFE）下， EPD-Solver 的優勢尤為突出。例如，在 LSUN Bedroom 數據集上， EPD-Solver 的 FID 分數為 13.21 ，而次優的基線方法 AMED-Solver 的 FID 分數為 58.21。
3. 插件（Plugin）性能出色：當作為插件（EPD-Plugin）應用于 iPNDM 求解器時，該方法同樣表現出色。尤其是在 NFE 大于 7 的場景，其性能普遍優于 EPD-Solver。

通過可視化兩個隨機像素在生成過程中的演變路徑，可以觀察到 EPD-Solver 的軌跡與「教師」軌跡展現出高度的一致性。相比之下， DDIM、DPM-Solver 和 iPNDM 等其他求解器的軌跡相比教師軌跡明顯偏離。

在 Stable Diffusion v1.5 模型上， EPD-Solver 通過在極低的采樣步數下（如 8-20 NFE）生成質量遠超 DPM-Solver++(2M) 和 AMED-Plugin 等先進求解器，從而展現出顯著的加速效果。
結語
通過 EPD-Solver ，西湖大學的研究人員展示了如何利用其創新的并行梯度評估機制，在不增加單步推理延遲的前提下，高效且精確地減小了生圖模型每步采樣的截斷誤差，緩解擴散模型在低步數采樣下的圖像質量退化問題。
該方法的核心優勢在于兩點：
1. 并行效率與精度提升：通過引入多個可學習的中間時間步梯度評估并將其進行凸組合加權，顯著提升了 ODE 積分近似的精度，從而降低了局部截斷誤差。尤為關鍵的是，這些額外的梯度計算因其獨立性，可實現完全并行化，在保持單步推理零延遲增加的前提下提升了生成質量。
2. 訓練輕量與即插即用：僅需通過蒸餾方式優化一個極小規模的可學習參數集，避免了代價高昂的擴散模型重訓練或微調。該方法還可作為 EPD-Plugin 輕松集成至現有 ODE 采樣器（如 iPNDM），進一步擴展其應用范圍。
【ICCV 2025 | EPD-Solver:西湖大學發布并行加速擴散采樣算法】綜上， EPD-Solver 突破了擴散模型在低延遲采樣時速度與圖像質量的核心權衡瓶頸，提供了一種高效、實用且易于部署的新方法。其在多個圖像生成基準上顯著優于現有先進求解器的實驗表現，有力證明了并行計算是推動擴散模型高效采樣發展的一個極具潛力的研究方向。

推薦閱讀

上一篇：iOS 26 不盡人意，但相機 App 值得所有廠家學習

下一篇：華為NCE-數據通信領域總裁王輝：AI落地應用的新階段