何愷明團(tuán)隊(duì)新作：擴(kuò)散模型可能被用錯(cuò)了_新能源

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

聞樂發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI
何愷明又一次返璞歸真。
最新論文直接推翻擴(kuò)散模型的主流玩法——不讓模型預(yù)測(cè)噪聲，而是直接畫干凈圖。

如果你熟悉何愷明的作品，會(huì)發(fā)現(xiàn)這正是他創(chuàng)新的典型路徑，不提出更復(fù)雜的架構(gòu) ，而是把問題拆回最初的樣子，讓模型做它最擅長(zhǎng)的那件事。
實(shí)際上，擴(kuò)散模型火了這么多年，架構(gòu)越做越復(fù)雜，比如預(yù)測(cè)噪聲、預(yù)測(cè)速度、對(duì)齊latent、堆tokenizer、加VAE、加perceptual loss……
但大家似乎忘了，擴(kuò)散模型原本就是去噪模型。
現(xiàn)在這篇新論文把這件事重新擺上桌，既然叫denoising模型，那為什么不直接denoise？
于是，在ResNet、MAE等之后，何愷明團(tuán)隊(duì)又給出了一個(gè)“大道至簡(jiǎn)”的結(jié)論：擴(kuò)散模型應(yīng)該回到最初——直接預(yù)測(cè)圖像。
擴(kuò)散模型可能被用錯(cuò)了當(dāng)下的主流擴(kuò)散模型，雖然設(shè)計(jì)思想以及名為“去噪” ，但在訓(xùn)練時(shí) ，神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的目標(biāo)往往并不是干凈的圖像，而是噪聲，或者是一個(gè)混合了圖像與噪聲的速度場(chǎng) 。
實(shí)際上，預(yù)測(cè)噪聲和預(yù)測(cè)干凈圖差得很遠(yuǎn) 。
根據(jù)流形假設(shè) ，自然圖像是分布在高維像素空間中的低維流形上的，是有規(guī)律可循的干凈數(shù)據(jù)；而噪聲則是均勻彌散在整個(gè)高維空間中的，不具備這種低維結(jié)構(gòu) 。

簡(jiǎn)單理解就是，把高維像素空間想象成一個(gè)巨大的3D房間，而干凈的自然圖像其實(shí)都擠在房間里的一塊2D屏幕上。這就是流形假設(shè)——自然數(shù)據(jù)看著維度高，實(shí)則集中在一個(gè)低維的「曲面（流形）」上。
但噪聲不一樣。它是彌漫在整個(gè)3D房間里的雪花點(diǎn) ，不在屏幕上；而速度場(chǎng)也一樣，一半在屏上、一半在屏外，同樣也脫離了「流形」的規(guī)律。
這就導(dǎo)致了一個(gè)核心矛盾，在處理高維數(shù)據(jù)時(shí) ，例如將圖像切分為16x16甚至32x32的大Patch ，要求神經(jīng)網(wǎng)絡(luò)去擬合無規(guī)律的高維噪聲，需要極大的模型容量來保留所有信息，這很容易導(dǎo)致模型訓(xùn)練崩潰。
而相反呢，如果讓網(wǎng)絡(luò)直接預(yù)測(cè)干凈的圖像，本質(zhì)上就是讓網(wǎng)絡(luò)學(xué)習(xí)如何將噪點(diǎn)投影回低維流形，這對(duì)于網(wǎng)絡(luò)容量的要求要低得多，也更符合神經(jīng)網(wǎng)絡(luò)“過濾噪聲、保留信號(hào)”的原本設(shè)計(jì) 。

于是，這篇文章提出了一個(gè)極簡(jiǎn)的架構(gòu)JiT——Just image Transformers 。
正如其名，這就是一個(gè)純粹處理圖像的Transformer ，它的設(shè)計(jì)非常簡(jiǎn)單。沒有像普遍的擴(kuò)散模型一樣使用VAE壓縮潛空間，也沒有設(shè)計(jì)任何Tokenizer ，不需要CLIP或DINO等預(yù)訓(xùn)練特征的對(duì)齊，也不依賴任何額外的損失函數(shù) 。
完全從像素開始，用一個(gè)純粹Transformer去做denoise 。
JiT就像一個(gè)標(biāo)準(zhǔn)的ViT ，它將原始像素切成大Patch（維度可高達(dá)3072維甚至更高）直接輸入，唯一的改動(dòng)就是將輸出目標(biāo)設(shè)定為直接預(yù)測(cè)干凈的圖像塊。

實(shí)驗(yàn)結(jié)果顯示，在低維空間下，預(yù)測(cè)噪聲和預(yù)測(cè)原圖的表現(xiàn)難分伯仲；但一旦進(jìn)入高維空間，傳統(tǒng)的預(yù)測(cè)噪聲模型徹底崩潰， FID（越低越優(yōu)）指數(shù)級(jí)飆升，而直接預(yù)測(cè)原圖JiT卻依然穩(wěn)健。

模型的擴(kuò)展能力也很出色。即使將patch尺寸擴(kuò)大到64x64 ，讓輸入維度高達(dá)一萬多維，只要堅(jiān)持預(yù)測(cè)原圖，無需增加網(wǎng)絡(luò)寬度也能實(shí)現(xiàn)高質(zhì)量生成。

團(tuán)隊(duì)甚至發(fā)現(xiàn) ，在輸入端人為引入瓶頸層進(jìn)行降維，不僅不會(huì)導(dǎo)致模型失效，反而因?yàn)槠鹾狭肆餍螌W(xué)習(xí)過濾噪聲的本質(zhì) ，進(jìn)一步提升了生成質(zhì)量。
這種極簡(jiǎn)架構(gòu)在不依賴任何復(fù)雜組件或預(yù)訓(xùn)練的情況下，在ImageNet 256x256和512x512上達(dá)到了1.82和1.78的SOTA級(jí)FID分?jǐn)?shù) 。

作者介紹這篇論文的一作是何愷明的開門弟子之一黎天鴻，本科畢業(yè)于清華姚班，在MIT獲得了碩博學(xué)位之后，目前在何愷明組內(nèi)從事博士后研究。

他的主要研究方向是表征學(xué)習(xí)、生成模型以及兩者之間的協(xié)同作用。目標(biāo)是構(gòu)建能夠理解人類感知之外的世界的智能視覺系統(tǒng) 。
此前曾作為一作和何愷明開發(fā)了自條件圖像生成框架RCG ，團(tuán)隊(duì)最新的多項(xiàng)研究中他也都有參與。

也可以說這是一位酷愛湖南菜的學(xué)者，把菜譜都展示在了自己的主頁上。

【何愷明團(tuán)隊(duì)新作：擴(kuò)散模型可能被用錯(cuò)了】論文地址：https://arxiv.org/abs/2511.13720
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們，第一時(shí)間獲知前沿科技動(dòng)態(tài)

何愷明團(tuán)隊(duì)新作：擴(kuò)散模型可能被用錯(cuò)了

推薦閱讀

高欄島自駕游旅游攻略

oppo手機(jī)root權(quán)限怎么開啟

qq群匿名投票別人可以看見嗎

泰國旅游攻略泰國有什么旅游攻略

百萬怎么理財(cái)

ipad air 4什么時(shí)候出上市時(shí)間預(yù)測(cè) 曝ipad air4有妙控鍵盤

制作屬于自己的APP

什么是白茶為什么叫白茶

夢(mèng)見白紙

夢(mèng)見找回錢包夢(mèng)見找回錢包是什么意思

中國計(jì)量大...,論文機(jī)檢在什么時(shí)候

實(shí)習(xí)期會(huì)計(jì)算工齡嗎

教你曝蘋果 iPhone 12 Pro Max 搭載 ProMotion 技術(shù)，簡(jiǎn)談手機(jī)屏幕「高刷新率」。

afl燈維修是什么意思

奇瑞qq311，奇瑞QQ 311這款車怎么樣現(xiàn)在售價(jià)多少

元宵怎么煮好吃