
文章圖片

文章圖片

文章圖片
機(jī)器之心報(bào)道
編輯:Panda
前些天 , 一項(xiàng)「AI 傳心術(shù)」的研究在技術(shù)圈炸開(kāi)了鍋:機(jī)器不用說(shuō)話 , 直接拋過(guò)去一堆 Cache 就能交流 。 讓人們直觀感受到了「去語(yǔ)言化」的高效 , 也讓機(jī)器之心那條相關(guān)推文狂攬 85 萬(wàn)瀏覽量 。 參閱報(bào)道《用「?jìng)餍男g(shù)」替代「對(duì)話」 , 清華大學(xué)聯(lián)合無(wú)問(wèn)芯穹、港中文等機(jī)構(gòu)提出 Cache-to-Cache 模型通信新范式》 。
事實(shí)上 , 這還不是近期唯一一項(xiàng)此類研究 , NeurIPS 2025 Spotlight 論文《Thought Communication in Multiagent Collaboration》提出了 Thought Communication(思維溝通)概念 , 讓智能體在內(nèi)部層面?zhèn)鬟f潛在思維(latent thoughts) , 實(shí)現(xiàn)類似心靈感應(yīng)的合作 。 參閱《讓大模型學(xué)會(huì)「心靈感應(yīng)」:基于思維溝通的多智能體合作范式來(lái)了》 。
如果說(shuō)前兩項(xiàng)研究是在讓 AI 擺脫「語(yǔ)言」的束縛 , 那么今天這項(xiàng)研究則更進(jìn)一步:它試圖讓 AI 擺脫對(duì)「數(shù)據(jù)」的依賴 。
來(lái)自麻省理工學(xué)院 Tommi Jaakkola 和紐約大學(xué)謝賽寧兩個(gè)團(tuán)隊(duì)的一項(xiàng)聯(lián)合研究又提出了一種新方法 , 無(wú)需數(shù)據(jù) , 僅從先驗(yàn)分布中采樣即可實(shí)現(xiàn) flow map 蒸餾 , 并且取得了非常出色的性能表現(xiàn) 。
這聽(tīng)起來(lái)簡(jiǎn)直像是武俠小說(shuō)里的「閉關(guān)修煉」:不看任何武林秘籍(數(shù)據(jù)集) , 僅憑內(nèi)功心法(先驗(yàn)分布)和宗師的指點(diǎn)(教師模型) , 就在極短時(shí)間內(nèi)練成了絕世武功 。
這篇論文的共一作者為 MIT 四年級(jí)博士生 Shangyuan Tong 和紐約大學(xué)一年級(jí)博士生 Nanye Ma 。 它不僅刷新了 ImageNet 的生成質(zhì)量紀(jì)錄(1-NFE 下 FID 達(dá)到 1.45) , 更重要的是 , 它向我們展示了一個(gè)隱約可見(jiàn)的未來(lái):擺脫對(duì)顯性數(shù)據(jù)(如文本、圖像)的依賴 , 轉(zhuǎn)而挖掘和利用模型內(nèi)部表征或先驗(yàn)分布 , 正在崛起成為 AI 研究的一個(gè)重要新范式 。
論文標(biāo)題:Flow Map Distillation Without Data 論文地址:https://arxiv.org/abs/2511.19428v1 項(xiàng)目頁(yè)面:https://data-free-flow-distill.github.io/問(wèn)題是什么?
我們知道 , 擴(kuò)散模型和流模型已經(jīng)徹底改變了高保真合成領(lǐng)域 。
然而 , 它們需要對(duì)常微分方程(ODE)進(jìn)行數(shù)值積分 , 而這會(huì)導(dǎo)致嚴(yán)重的計(jì)算瓶頸 。
為了解決這一延遲問(wèn)題 , flow map 提供了一種有原理依據(jù)的加速途徑 。 它可直接學(xué)習(xí) ODE 的解算子 , 能夠在生成軌跡上進(jìn)行大幅度的「跳躍」 , 從而繞過(guò)繁瑣的迭代求解過(guò)程 。
雖然 flow map 可以從頭開(kāi)始訓(xùn)練 , 但還有一種更靈活的方案:蒸餾強(qiáng)大的預(yù)訓(xùn)練「教師模型」 。
這種模塊化策略可以實(shí)現(xiàn)對(duì)最先進(jìn)的模型的壓縮 。
該團(tuán)隊(duì)觀察到 , 目前主流且最成功的 flow map 蒸餾方法通常是基于數(shù)據(jù)的 , 即依賴外部數(shù)據(jù)集的樣本來(lái)訓(xùn)練「學(xué)生模型」 。
但他們認(rèn)為 , 這種被默許的依賴關(guān)系引入了一個(gè)根本性的風(fēng)險(xiǎn):教師-數(shù)據(jù)不匹配 。
如圖 1 所示 , 靜態(tài)數(shù)據(jù)集可能無(wú)法完整或準(zhǔn)確地表征教師模型真實(shí)的生成能力 。
這種差異在實(shí)際應(yīng)用中屢見(jiàn)不鮮:例如 , 當(dāng)教師模型的泛化能力超出了其原始訓(xùn)練集時(shí);當(dāng)后期微調(diào)導(dǎo)致教師模型的分布偏離了原始數(shù)據(jù)時(shí);又或者當(dāng)教師模型的私有訓(xùn)練數(shù)據(jù)根本無(wú)法獲取時(shí) 。 在這些情境下 , 如果強(qiáng)行要求學(xué)生模型在不匹配的數(shù)據(jù)集上擬合教師模型 , 將從根本上限制其潛力 。
通俗來(lái)說(shuō) , 你可以把「教師模型」想象成一位不僅畫(huà)技高超 , 還通過(guò)后期進(jìn)修(微調(diào))掌握了獨(dú)門(mén)絕技的藝術(shù)大師 。 而我們手中的「數(shù)據(jù)集」就好比是他多年前出版的一本舊畫(huà)冊(cè) , 甚至是市面上隨便找來(lái)的一本普通參考書(shū) 。
所謂的「教師-數(shù)據(jù)不匹配」 , 就是指這位大師現(xiàn)在的水平和風(fēng)格(教師模型的真實(shí)生成分布)已經(jīng)遠(yuǎn)遠(yuǎn)超出了那本舊畫(huà)冊(cè)的范疇(靜態(tài)數(shù)據(jù)集) 。 如果強(qiáng)行讓徒弟(學(xué)生模型)死盯著這本過(guò)時(shí)或甚至不對(duì)版的畫(huà)冊(cè)去學(xué) , 而不是直接去觀察大師現(xiàn)在是如何下筆的 , 那么徒弟不僅學(xué)不到大師現(xiàn)在的真本事 , 甚至?xí)划?huà)冊(cè)里的錯(cuò)誤誤導(dǎo) , 從而從根本上限制了其潛力 。
解決方案它來(lái)了!
幸運(yùn)的是 , 這種不匹配并非不可避免 。
該團(tuán)隊(duì)敏銳地觀察到 , 盡管教師模型的生成路徑可能在中間過(guò)程中偏離靜態(tài)數(shù)據(jù)集 , 但根據(jù)定義 , 它們?cè)谄瘘c(diǎn)處始終錨定于先驗(yàn)分布(Prior Distribution) 。
如圖 1 所示 , 先驗(yàn)分布是唯一能保證對(duì)齊的基點(diǎn):它既是教師模型生成的共同起點(diǎn) , 也是所有加噪過(guò)程的終點(diǎn) 。
這一發(fā)現(xiàn)帶來(lái)了一個(gè)問(wèn)題:對(duì)數(shù)據(jù)的普遍依賴真的是必須的嗎?
基于此 , 該團(tuán)隊(duì)提出了一種范式轉(zhuǎn)變:可以通過(guò)僅從先驗(yàn)分布進(jìn)行采樣 , 構(gòu)建一種穩(wěn)健的、無(wú)需數(shù)據(jù)的替代方案 , 從而在設(shè)計(jì)上(by construction)徹底規(guī)避「教師-數(shù)據(jù)不匹配」的風(fēng)險(xiǎn) 。
為了踐行這一理念 , 他們引入了一個(gè)有原理依據(jù)的「預(yù)測(cè)-校正」(Predictor-Corrector)框架 , 旨在純粹從先驗(yàn)分布出發(fā)來(lái)追蹤教師模型的動(dòng)態(tài) 。
預(yù)測(cè)階段(Prediction):該方法首先獲取一個(gè)先驗(yàn)樣本和一個(gè)標(biāo)量積分區(qū)間 , 預(yù)測(cè)流應(yīng)當(dāng)「跳躍」到的位置 。 團(tuán)隊(duì)從理論上證明 , 當(dāng)模型的生成速度(Generating Velocity , 即模型沿自身預(yù)測(cè)路徑行進(jìn)的速率)與教師模型的瞬時(shí)速度完全一致時(shí) , 即可達(dá)到最優(yōu)狀態(tài)。 這使得學(xué)生模型宛如一個(gè)自主的 ODE 求解器 , 完全基于自身的演化預(yù)測(cè)來(lái)駕馭教師模型的向量場(chǎng) 。 校正階段(Correction):然而 , 正如所有的自回歸數(shù)值求解器一樣 , 這種自我引用的預(yù)測(cè)過(guò)程容易導(dǎo)致誤差累積 , 使軌跡逐漸偏離。 為緩解這一問(wèn)題 , 團(tuán)隊(duì)提出了一種基于分布匹配的校正機(jī)制:將模型的加噪速度(Noising Velocity , 即由學(xué)生模型生成的分布所隱含的加噪流邊緣速度)強(qiáng)制拉回 , 使其與教師模型重新對(duì)齊 。 這一機(jī)制充當(dāng)了穩(wěn)定器的角色 , 確保了生成的邊緣分布始終忠實(shí)于教師模型 。他們將該方法命名為 FreeFlow , 以強(qiáng)調(diào)其核心特征:一個(gè)完全無(wú)需數(shù)據(jù)的 flow map 蒸餾框架 。
實(shí)驗(yàn)證明有效性
該團(tuán)隊(duì)在 ImageNet 上進(jìn)行了廣泛的實(shí)驗(yàn) , 驗(yàn)證了該方法的有效性 。
通過(guò)從 SiT-XL/2+REPA 教師模型進(jìn)行蒸餾 , FreeFlow 刷新了最佳成績(jī):在僅需 1 次函數(shù)評(píng)估(1-NFE)的情況下 , 其在 256×256 分辨率下達(dá)到了驚人的 1.45 FID , 在 512×512 分辨率下達(dá)到了 1.49 FID , 大幅超越了所有基于數(shù)據(jù)的基準(zhǔn)模型 。
此外 , 利用其作為快速且一致的代理模型(proxy)的特性 , FreeFlow 實(shí)現(xiàn)了高效的「推理時(shí)擴(kuò)展」 , 使得在單步操作中搜索最優(yōu)噪聲樣本成為可能 。
最終 , 他們的研究結(jié)果證實(shí) , 外部數(shù)據(jù)集并非高保真 flow map 蒸餾的必要條件:可以在完全避免「教師-數(shù)據(jù)不匹配」風(fēng)險(xiǎn)的同時(shí) , 不犧牲任何性能 。
他們表示 , 這項(xiàng)工作為生成模型的加速提供了更加穩(wěn)固的基石 , 并有望推動(dòng)該領(lǐng)域向「無(wú)數(shù)據(jù)」范式轉(zhuǎn)變 。
【謝賽寧與Jaakkola團(tuán)隊(duì)重磅研究:無(wú)數(shù)據(jù)Flow Map蒸餾】看起來(lái) , AI 正在從「向外挖掘數(shù)據(jù)」的時(shí)代 , 跨入「向內(nèi)挖掘潛能」的新紀(jì)元 。 方法詳情和實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參閱原論文 。
推薦閱讀
- 馬斯克稱將“深度參與”特斯拉AI芯片設(shè)計(jì) 目標(biāo)是每年投入量產(chǎn)一款新芯片
- 輕薄與強(qiáng)悍兼得:華為Mate X7如何實(shí)現(xiàn)折疊屏的“全能進(jìn)化”?
- 兼顧輕便與性能 佳能EOS R50拍攝體驗(yàn)
- AI催生超大封裝需求,Intel EMIB與TSMC CoWos技術(shù)對(duì)比
- 舒適與音質(zhì)我全要!南卡BOLT打破開(kāi)放式頭戴耳機(jī)所有刻板印象
- 李彥宏親掌AI:王海峰失職與何俊杰轉(zhuǎn)崗背后的百度困局
- 55年常青跨界王者:CD4000系列-模擬與數(shù)字設(shè)計(jì)的永恒橋梁
- 共筑AI安全可信,OPPO與上海人工智能實(shí)驗(yàn)室合作簽約
- 澎湃OS3大升級(jí):超級(jí)小愛(ài)上崗、超級(jí)島擴(kuò)展、影像與效率全線進(jìn)化
- 內(nèi)存與2nm代工成本上漲,高通與聯(lián)發(fā)科2026年將面臨價(jià)格壓力
