VAE再被補刀!清華快手新模型,訓練提效6200%,生成提速3500%

VAE再被補刀!清華快手新模型,訓練提效6200%,生成提速3500%

文章圖片

VAE再被補刀!清華快手新模型,訓練提效6200%,生成提速3500%

文章圖片

VAE再被補刀!清華快手新模型,訓練提效6200%,生成提速3500%

文章圖片

VAE再被補刀!清華快手新模型,訓練提效6200%,生成提速3500%

聞樂 發自 凹非寺量子位 | 公眾號 QbitAI前腳謝賽寧剛宣告VAE在圖像生成領域退役 , 后腳清華與快手可靈團隊也帶著無VAE潛在擴散模型SVG來了 。
該方法實現了在訓練效率上62倍、生成速度上35倍的提升 。

VAE為何被接連拋棄?主要還是因為語義糾纏的缺陷——語義特征都放在同一個潛空間 , 調一個數值就會“牽一發而動全身” , 比如只想改變貓的顏色 , 結果體型、表情都跟著變 。
和謝賽寧團隊極簡復用預訓練編碼器、改造DiT架構 , 專注于生成性能的RAE不同 , SVG通過語義+細節雙分支+分布對齊 , 實現了多任務通用 。

下面具體來看 。
主動構建語義與細節融合的特征空間在傳統的「VAE+擴散模型」圖像生成范式中 , VAE的核心作用是將高分辨率圖像壓縮為低維的潛空間特征(可以理解為圖像的簡化代碼) , 供后續擴散模型學習生成邏輯 。
但這樣會使不同類別、不同語義的圖像特征會混亂地交織在一起 , 比如貓和狗的特征邊界模糊不清等 。
直接導致兩個問題:
一是擴散模型訓練效率極低 , 需要數百萬步迭代才能勉強理清特征邏輯; 二是生成過程繁瑣 , 往往需要經過幾十甚至上百步采樣才能輸出清晰圖像 。并且 , 生成的特征空間用途單一 , 除了圖像生成 , 幾乎無法適配圖像識別、語義分割等其他視覺任務 。
面對VAE的困境 , 謝賽寧團隊的RAE技術選擇了極致聚焦生成的思路 。 直接復用DINOv2、MAE等成熟的預訓練編碼器 , 不額外修改編碼器結構 , 僅通過優化解碼器來還原圖像細節 , 同時針對性地改造擴散模型架構 。
最終實現了生成效率與質量的跨越式提升 , 簡單說就是把重心全放在了“把圖生成得又快又好”上 。
而清華快手可靈團隊的SVG技術 , 則走了兼顧生成與多任務通用的路線 , 核心差異就在于對特征空間的構建邏輯上 。
RAE是直接復用預訓練特征 , SVG 則是主動構建語義與細節融合的特征空間 。

具體來看 , SVG選擇以DINOv3預訓練模型作為語義提取器 。
原因是DINOv3經過大規模自監督學習 , 能夠精準捕捉圖像的高層語義信息 , 讓貓、狗、汽車等不同類別的特征邊界能夠清晰可辨 , 從根源上解決了語義糾纏問題 。
但團隊也發現 , DINOv3提取的特征偏重于宏觀語義 , 會丟失顏色、紋理等高頻細節 , 因此又專門設計了一個輕量級的殘差編碼器來進行細節補充 , 針對性地學習這些被忽略的細節信息 。
而為了讓「語義」和「細節補充」能夠完美融合 , SVG還加入了關鍵的分布對齊機制 。
這一機制通過技術手段調整殘差編碼器輸出的細節特征 , 使其在數值分布上與DINOv3的語義特征完全匹配 , 避免細節信息擾亂語義結構 。
實驗數據也印證了這一機制的重要性 。 去掉分布對齊后 , SVG生成圖像的FID值(衡量生成圖像與真實圖像相似度的核心指標 , 數值越低越優)從6.12升至9.03 , 生成質量大幅下滑 。

實驗結果顯示 , SVG在生成質量、效率、多任務通用性上全面超越傳統VAE方案 。
訓練效率方面 , 在ImageNet 256×256數據集上 , SVG-XL模型僅訓練80個epoch , 在無分類器引導時FID達6.57 , 遠超同規?;赩AE的SiT-XL(22.58);如果延長訓練至1400個epoch , FID可低至1.92 , 接近當前頂級生成模型水平 。

推理效率方面 , 消融實驗中 , 5步采樣時 , SVG-XL的gFID為12.26 , 而SiT-XL(SD-VAE)為69.38、SiT-XL(VA-VAE)為74.46 。 這表明在較少的采樣步數下 , SVG-XL就能達到較好的生成質量 。

不僅是生圖 , SVG的特征空間繼承了DINOv3的能力 , 可直接用于圖像分類、語義分割、深度估計等任務 , 且無需微調編碼器 。 例如 , 在ImageNet-1K分類任務中Top-1精度達到81.8% , 與原始DINOv3幾乎一致;在ADE20K語義分割任務中mIoU達46.51% , 接近專門的分割模型 。

團隊介紹團隊由鄭文釗擔任項目負責人 , 目前是加州大學伯克利分校博士后 。 此前 , 他在清華大學自動化系獲博士學位 , 研究集中在人工智能和深度學習領域 。
同樣來自清華自動化系的史明磊和王皓霖目前均在攻讀博士學位 , 研究重點為多模態生成模型 。
其中 , 史明磊透露自己還在創辦一家專注于人工智能應用的公司 。
Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan則來自快手可靈團隊 。
其中 , Pengfei Wan是快手可靈視頻生成模型負責人 。
從謝賽寧團隊的RAE到清華快手的SVG , 盡管技術路線各有側重 , 但從兩者的突破可以看出 , 預訓練視覺模型的特征空間 , 或許已經具備了替代VAE的能力 。
論文地址:https://arxiv.org/abs/2510.15301代碼地址:https://github.com/shiml20/SVG
— 完 —
量子位 QbitAI · 頭條號簽約
【VAE再被補刀!清華快手新模型,訓練提效6200%,生成提速3500%】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀