謝賽寧與Jaakkola團(tuán)隊(duì)重磅研究：無(wú)數(shù)據(jù)Flow Map蒸餾_ai

文章圖片

文章圖片

文章圖片

機(jī)器之心報(bào)道
編輯：Panda
前些天，一項(xiàng)「AI 傳心術(shù)」的研究在技術(shù)圈炸開(kāi)了鍋：機(jī)器不用說(shuō)話，直接拋過(guò)去一堆 Cache 就能交流。讓人們直觀感受到了「去語(yǔ)言化」的高效，也讓機(jī)器之心那條相關(guān)推文狂攬 85 萬(wàn)瀏覽量。參閱報(bào)道《用「?jìng)餍男g(shù)」替代「對(duì)話」，清華大學(xué)聯(lián)合無(wú)問(wèn)芯穹、港中文等機(jī)構(gòu)提出 Cache-to-Cache 模型通信新范式》。

事實(shí)上，這還不是近期唯一一項(xiàng)此類研究， NeurIPS 2025 Spotlight 論文《Thought Communication in Multiagent Collaboration》提出了 Thought Communication（思維溝通）概念，讓智能體在內(nèi)部層面?zhèn)鬟f潛在思維（latent thoughts），實(shí)現(xiàn)類似心靈感應(yīng)的合作。參閱《讓大模型學(xué)會(huì)「心靈感應(yīng)」：基于思維溝通的多智能體合作范式來(lái)了》。
如果說(shuō)前兩項(xiàng)研究是在讓 AI 擺脫「語(yǔ)言」的束縛，那么今天這項(xiàng)研究則更進(jìn)一步：它試圖讓 AI 擺脫對(duì)「數(shù)據(jù)」的依賴。
來(lái)自麻省理工學(xué)院 Tommi Jaakkola 和紐約大學(xué)謝賽寧兩個(gè)團(tuán)隊(duì)的一項(xiàng)聯(lián)合研究又提出了一種新方法，無(wú)需數(shù)據(jù) ，僅從先驗(yàn)分布中采樣即可實(shí)現(xiàn) flow map 蒸餾，并且取得了非常出色的性能表現(xiàn) 。
這聽(tīng)起來(lái)簡(jiǎn)直像是武俠小說(shuō)里的「閉關(guān)修煉」：不看任何武林秘籍（數(shù)據(jù)集），僅憑內(nèi)功心法（先驗(yàn)分布）和宗師的指點(diǎn)（教師模型），就在極短時(shí)間內(nèi)練成了絕世武功。
這篇論文的共一作者為 MIT 四年級(jí)博士生 Shangyuan Tong 和紐約大學(xué)一年級(jí)博士生 Nanye Ma 。它不僅刷新了 ImageNet 的生成質(zhì)量紀(jì)錄（1-NFE 下 FID 達(dá)到 1.45），更重要的是，它向我們展示了一個(gè)隱約可見(jiàn)的未來(lái)：擺脫對(duì)顯性數(shù)據(jù)（如文本、圖像）的依賴，轉(zhuǎn)而挖掘和利用模型內(nèi)部表征或先驗(yàn)分布，正在崛起成為 AI 研究的一個(gè)重要新范式。

論文標(biāo)題：Flow Map Distillation Without Data 論文地址：https://arxiv.org/abs/2511.19428v1 項(xiàng)目頁(yè)面：https://data-free-flow-distill.github.io/問(wèn)題是什么？
我們知道，擴(kuò)散模型和流模型已經(jīng)徹底改變了高保真合成領(lǐng)域。
然而，它們需要對(duì)常微分方程（ODE）進(jìn)行數(shù)值積分，而這會(huì)導(dǎo)致嚴(yán)重的計(jì)算瓶頸。
為了解決這一延遲問(wèn)題， flow map 提供了一種有原理依據(jù)的加速途徑。它可直接學(xué)習(xí) ODE 的解算子，能夠在生成軌跡上進(jìn)行大幅度的「跳躍」，從而繞過(guò)繁瑣的迭代求解過(guò)程。
雖然 flow map 可以從頭開(kāi)始訓(xùn)練，但還有一種更靈活的方案：蒸餾強(qiáng)大的預(yù)訓(xùn)練「教師模型」。
這種模塊化策略可以實(shí)現(xiàn)對(duì)最先進(jìn)的模型的壓縮。
該團(tuán)隊(duì)觀察到，目前主流且最成功的 flow map 蒸餾方法通常是基于數(shù)據(jù)的，即依賴外部數(shù)據(jù)集的樣本來(lái)訓(xùn)練「學(xué)生模型」。
但他們認(rèn)為，這種被默許的依賴關(guān)系引入了一個(gè)根本性的風(fēng)險(xiǎn)：教師-數(shù)據(jù)不匹配。
如圖 1 所示，靜態(tài)數(shù)據(jù)集可能無(wú)法完整或準(zhǔn)確地表征教師模型真實(shí)的生成能力。

這種差異在實(shí)際應(yīng)用中屢見(jiàn)不鮮：例如，當(dāng)教師模型的泛化能力超出了其原始訓(xùn)練集時(shí)；當(dāng)后期微調(diào)導(dǎo)致教師模型的分布偏離了原始數(shù)據(jù)時(shí)；又或者當(dāng)教師模型的私有訓(xùn)練數(shù)據(jù)根本無(wú)法獲取時(shí) 。在這些情境下，如果強(qiáng)行要求學(xué)生模型在不匹配的數(shù)據(jù)集上擬合教師模型，將從根本上限制其潛力。

通俗來(lái)說(shuō) ，你可以把「教師模型」想象成一位不僅畫(huà)技高超，還通過(guò)后期進(jìn)修（微調(diào)）掌握了獨(dú)門(mén)絕技的藝術(shù)大師。而我們手中的「數(shù)據(jù)集」就好比是他多年前出版的一本舊畫(huà)冊(cè) ，甚至是市面上隨便找來(lái)的一本普通參考書(shū) 。
所謂的「教師-數(shù)據(jù)不匹配」，就是指這位大師現(xiàn)在的水平和風(fēng)格（教師模型的真實(shí)生成分布）已經(jīng)遠(yuǎn)遠(yuǎn)超出了那本舊畫(huà)冊(cè)的范疇（靜態(tài)數(shù)據(jù)集）。如果強(qiáng)行讓徒弟（學(xué)生模型）死盯著這本過(guò)時(shí)或甚至不對(duì)版的畫(huà)冊(cè)去學(xué) ，而不是直接去觀察大師現(xiàn)在是如何下筆的，那么徒弟不僅學(xué)不到大師現(xiàn)在的真本事，甚至?xí)划?huà)冊(cè)里的錯(cuò)誤誤導(dǎo) ，從而從根本上限制了其潛力。
解決方案它來(lái)了！
幸運(yùn)的是，這種不匹配并非不可避免。
該團(tuán)隊(duì)敏銳地觀察到，盡管教師模型的生成路徑可能在中間過(guò)程中偏離靜態(tài)數(shù)據(jù)集，但根據(jù)定義，它們?cè)谄瘘c(diǎn)處始終錨定于先驗(yàn)分布（Prior Distribution）。
如圖 1 所示，先驗(yàn)分布是唯一能保證對(duì)齊的基點(diǎn)：它既是教師模型生成的共同起點(diǎn) ，也是所有加噪過(guò)程的終點(diǎn) 。
這一發(fā)現(xiàn)帶來(lái)了一個(gè)問(wèn)題：對(duì)數(shù)據(jù)的普遍依賴真的是必須的嗎？
基于此，該團(tuán)隊(duì)提出了一種范式轉(zhuǎn)變：可以通過(guò)僅從先驗(yàn)分布進(jìn)行采樣，構(gòu)建一種穩(wěn)健的、無(wú)需數(shù)據(jù)的替代方案，從而在設(shè)計(jì)上（by construction）徹底規(guī)避「教師-數(shù)據(jù)不匹配」的風(fēng)險(xiǎn) 。
為了踐行這一理念，他們引入了一個(gè)有原理依據(jù)的「預(yù)測(cè)-校正」（Predictor-Corrector）框架，旨在純粹從先驗(yàn)分布出發(fā)來(lái)追蹤教師模型的動(dòng)態(tài) 。
預(yù)測(cè)階段（Prediction）：該方法首先獲取一個(gè)先驗(yàn)樣本和一個(gè)標(biāo)量積分區(qū)間，預(yù)測(cè)流應(yīng)當(dāng)「跳躍」到的位置。團(tuán)隊(duì)從理論上證明，當(dāng)模型的生成速度（Generating Velocity ，即模型沿自身預(yù)測(cè)路徑行進(jìn)的速率）與教師模型的瞬時(shí)速度完全一致時(shí) ，即可達(dá)到最優(yōu)狀態(tài)。這使得學(xué)生模型宛如一個(gè)自主的 ODE 求解器，完全基于自身的演化預(yù)測(cè)來(lái)駕馭教師模型的向量場(chǎng) 。校正階段（Correction）：然而，正如所有的自回歸數(shù)值求解器一樣，這種自我引用的預(yù)測(cè)過(guò)程容易導(dǎo)致誤差累積，使軌跡逐漸偏離。為緩解這一問(wèn)題，團(tuán)隊(duì)提出了一種基于分布匹配的校正機(jī)制：將模型的加噪速度（Noising Velocity ，即由學(xué)生模型生成的分布所隱含的加噪流邊緣速度）強(qiáng)制拉回，使其與教師模型重新對(duì)齊。這一機(jī)制充當(dāng)了穩(wěn)定器的角色，確保了生成的邊緣分布始終忠實(shí)于教師模型。他們將該方法命名為 FreeFlow ，以強(qiáng)調(diào)其核心特征：一個(gè)完全無(wú)需數(shù)據(jù)的 flow map 蒸餾框架。
實(shí)驗(yàn)證明有效性
該團(tuán)隊(duì)在 ImageNet 上進(jìn)行了廣泛的實(shí)驗(yàn) ，驗(yàn)證了該方法的有效性。
通過(guò)從 SiT-XL/2+REPA 教師模型進(jìn)行蒸餾， FreeFlow 刷新了最佳成績(jī)：在僅需 1 次函數(shù)評(píng)估（1-NFE）的情況下，其在 256×256 分辨率下達(dá)到了驚人的 1.45 FID ，在 512×512 分辨率下達(dá)到了 1.49 FID ，大幅超越了所有基于數(shù)據(jù)的基準(zhǔn)模型。

此外，利用其作為快速且一致的代理模型（proxy）的特性， FreeFlow 實(shí)現(xiàn)了高效的「推理時(shí)擴(kuò)展」，使得在單步操作中搜索最優(yōu)噪聲樣本成為可能。
最終，他們的研究結(jié)果證實(shí) ，外部數(shù)據(jù)集并非高保真 flow map 蒸餾的必要條件：可以在完全避免「教師-數(shù)據(jù)不匹配」風(fēng)險(xiǎn)的同時(shí) ，不犧牲任何性能。
他們表示，這項(xiàng)工作為生成模型的加速提供了更加穩(wěn)固的基石，并有望推動(dòng)該領(lǐng)域向「無(wú)數(shù)據(jù)」范式轉(zhuǎn)變。
【謝賽寧與Jaakkola團(tuán)隊(duì)重磅研究：無(wú)數(shù)據(jù)Flow Map蒸餾】看起來(lái) ， AI 正在從「向外挖掘數(shù)據(jù)」的時(shí)代，跨入「向內(nèi)挖掘潛能」的新紀(jì)元。方法詳情和實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參閱原論文。

謝賽寧與Jaakkola團(tuán)隊(duì)重磅研究：無(wú)數(shù)據(jù)Flow Map蒸餾

推薦閱讀

蓮霧怎么吃止咳效果好,咳嗽吃蓮霧好還是梨好

電動(dòng)車p檔如何消除

網(wǎng)絡(luò)不穩(wěn)定怎么解決

win10關(guān)閉開(kāi)機(jī)啟動(dòng)的方法 win10系統(tǒng)如何關(guān)閉開(kāi)機(jī)啟動(dòng)項(xiàng)

夢(mèng)見(jiàn)菜花有蟲(chóng) 夢(mèng)見(jiàn)菜花有蟲(chóng)子

2022年廣州市荔灣區(qū)教育部門(mén)辦幼兒園招生工作方案

酥皮水果泡芙怎樣做好吃的泡芙

怎么網(wǎng)上創(chuàng)業(yè)，為什么現(xiàn)在越來(lái)越多的年輕人選擇網(wǎng)絡(luò)創(chuàng)業(yè)

荔枝酒泡十年還能喝嗎

wifi能連上但是上不了網(wǎng)怎么回事 wifi能連上但是上不了網(wǎng)是什么原因

濰坊市未來(lái)房?jī)r(jià)趨勢(shì),濰坊房?jī)r(jià)未來(lái)趨勢(shì)如何

雞蛋雞淖的做法步驟

倪健哪里人,周琦是哪里人

西安理工大學(xué)研究生，安徽大學(xué)和西安理工及西安科技哪個(gè)實(shí)力強(qiáng)

2022山東清明前后冷不冷

中國(guó)第一家免費(fèi)郵箱系統(tǒng),100個(gè)免費(fèi)郵箱