VAE再被補刀！清華快手新模型，訓練提效6200%，生成提速3500%

2026-02-24 npu it芯片百度 cpu gpu

文章圖片

文章圖片

文章圖片

聞樂發自凹非寺量子位 | 公眾號 QbitAI前腳謝賽寧剛宣告VAE在圖像生成領域退役，后腳清華與快手可靈團隊也帶著無VAE潛在擴散模型SVG來了。
該方法實現了在訓練效率上62倍、生成速度上35倍的提升。

VAE為何被接連拋棄？主要還是因為語義糾纏的缺陷——語義特征都放在同一個潛空間，調一個數值就會“牽一發而動全身” ，比如只想改變貓的顏色，結果體型、表情都跟著變。
和謝賽寧團隊極簡復用預訓練編碼器、改造DiT架構，專注于生成性能的RAE不同， SVG通過語義+細節雙分支+分布對齊，實現了多任務通用。

下面具體來看。
主動構建語義與細節融合的特征空間在傳統的「VAE+擴散模型」圖像生成范式中， VAE的核心作用是將高分辨率圖像壓縮為低維的潛空間特征（可以理解為圖像的簡化代碼），供后續擴散模型學習生成邏輯。
但這樣會使不同類別、不同語義的圖像特征會混亂地交織在一起，比如貓和狗的特征邊界模糊不清等。
直接導致兩個問題：
一是擴散模型訓練效率極低，需要數百萬步迭代才能勉強理清特征邏輯；二是生成過程繁瑣，往往需要經過幾十甚至上百步采樣才能輸出清晰圖像。并且，生成的特征空間用途單一，除了圖像生成，幾乎無法適配圖像識別、語義分割等其他視覺任務。
面對VAE的困境，謝賽寧團隊的RAE技術選擇了極致聚焦生成的思路。直接復用DINOv2、MAE等成熟的預訓練編碼器，不額外修改編碼器結構，僅通過優化解碼器來還原圖像細節，同時針對性地改造擴散模型架構。
最終實現了生成效率與質量的跨越式提升，簡單說就是把重心全放在了“把圖生成得又快又好”上。
而清華快手可靈團隊的SVG技術，則走了兼顧生成與多任務通用的路線，核心差異就在于對特征空間的構建邏輯上。
RAE是直接復用預訓練特征， SVG 則是主動構建語義與細節融合的特征空間。

具體來看， SVG選擇以DINOv3預訓練模型作為語義提取器。
原因是DINOv3經過大規模自監督學習，能夠精準捕捉圖像的高層語義信息，讓貓、狗、汽車等不同類別的特征邊界能夠清晰可辨，從根源上解決了語義糾纏問題。
但團隊也發現， DINOv3提取的特征偏重于宏觀語義，會丟失顏色、紋理等高頻細節，因此又專門設計了一個輕量級的殘差編碼器來進行細節補充，針對性地學習這些被忽略的細節信息。
而為了讓「語義」和「細節補充」能夠完美融合， SVG還加入了關鍵的分布對齊機制。
這一機制通過技術手段調整殘差編碼器輸出的細節特征，使其在數值分布上與DINOv3的語義特征完全匹配，避免細節信息擾亂語義結構。
實驗數據也印證了這一機制的重要性。去掉分布對齊后， SVG生成圖像的FID值（衡量生成圖像與真實圖像相似度的核心指標，數值越低越優）從6.12升至9.03 ，生成質量大幅下滑。

實驗結果顯示， SVG在生成質量、效率、多任務通用性上全面超越傳統VAE方案。
訓練效率方面，在ImageNet 256×256數據集上， SVG-XL模型僅訓練80個epoch ，在無分類器引導時FID達6.57 ，遠超同規?；赩AE的SiT-XL（22.58）；如果延長訓練至1400個epoch ， FID可低至1.92 ，接近當前頂級生成模型水平。

推理效率方面，消融實驗中， 5步采樣時， SVG-XL的gFID為12.26 ，而SiT-XL（SD-VAE）為69.38、SiT-XL（VA-VAE）為74.46 。這表明在較少的采樣步數下， SVG-XL就能達到較好的生成質量。

不僅是生圖， SVG的特征空間繼承了DINOv3的能力，可直接用于圖像分類、語義分割、深度估計等任務，且無需微調編碼器。例如，在ImageNet-1K分類任務中Top-1精度達到81.8% ，與原始DINOv3幾乎一致；在ADE20K語義分割任務中mIoU達46.51% ，接近專門的分割模型。

團隊介紹團隊由鄭文釗擔任項目負責人，目前是加州大學伯克利分校博士后。此前，他在清華大學自動化系獲博士學位，研究集中在人工智能和深度學習領域。
同樣來自清華自動化系的史明磊和王皓霖目前均在攻讀博士學位，研究重點為多模態生成模型。
其中，史明磊透露自己還在創辦一家專注于人工智能應用的公司。
Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan則來自快手可靈團隊。
其中， Pengfei Wan是快手可靈視頻生成模型負責人。
從謝賽寧團隊的RAE到清華快手的SVG ，盡管技術路線各有側重，但從兩者的突破可以看出，預訓練視覺模型的特征空間，或許已經具備了替代VAE的能力。
論文地址：https://arxiv.org/abs/2510.15301代碼地址：https://github.com/shiml20/SVG
— 完 —
量子位 QbitAI · 頭條號簽約
【VAE再被補刀！清華快手新模型，訓練提效6200%，生成提速3500%】關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：辦公全能手：京瓷TASKalfa MZ2501ci智能復合機為何值得選？

下一篇：豆包語音團隊提出“AI多人有聲劇”，效果媲美真人配音+后期