LeCun在Meta的「最后一作」_阿里巴巴|人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：元宇
【新智元導(dǎo)讀】就在Yann LeCun即將離職Meta創(chuàng)業(yè)的消息在AI圈刷屏?xí)r ，他的一篇關(guān)于自監(jiān)督學(xué)習(xí)的新論文也在arXiv上線。該論文提出了一種新框架LeJEPA ，為解決當(dāng)前JEPA方法中存在的多種失效模式提供了新路徑。

11月11日， Meta首席AI科學(xué)家Yann LeCun在arXiv上提交了他與Randall Balestriero合作的一篇新論文。
前Stability AI研究負責(zé)人Tanishq Mathew Abraham ，在X平臺上推薦了這篇論文，并調(diào)侃說這可能是LeCun在Meta發(fā)表的最后一篇論文之一。

因為就在這篇論文提交的同一天，媒體也曝出了LeCun即將在未來幾個月離開Meta創(chuàng)業(yè)的消息。
【LeCun在Meta的「最后一作」】Abraham評論道，這是一篇很有意思的論文。
它提出了一種新框架LeJEPA ，可以解決當(dāng)前JEPA方法中所存在的多種失效模式，僅需約50行代碼即可實現(xiàn) 。

論文地址：https://arxiv.org/pdf/2511.08544
對于LeCun這篇論文也頗具特殊意義——
既是為他在Meta FAIR實驗室十多年的研究工作劃下句點，同時也向外界傳遞出他下一步創(chuàng)業(yè)的新方向。
有網(wǎng)友評論這意味著LeCun回歸初心，追求以優(yōu)雅的力量取代大模型的暴力擴展。

為JEPA理論研究奠基
聯(lián)合嵌入預(yù)測架構(gòu)（Joint-Embedding Predictive Architectures ， JEPAs），由于缺乏明確的實踐指南和系統(tǒng)理論，目前相關(guān)研究大多是臨時性探索。
論文給出了一套完整的JEPA理論，并將其具體落地為LeJEPA ，這是一種輕量、可擴展且有堅實理論基礎(chǔ)的訓(xùn)練目標。
研究人員證明，若要最小化下游任務(wù)的預(yù)測風(fēng)險， JEPA的嵌入理想情況下應(yīng)服從各向同性高斯分布。
為此，他們提出一個新的目標函數(shù)Sketched Isotropic Gaussian Regularization（SIGReg ，隨機草圖各向同性高斯正則化），用于約束嵌入向該理想分布收斂。
LeJEPA融合了JEPA和SIGReg思想，兼具多方面的理論和實踐優(yōu)勢：

只需要一個權(quán)衡超參數(shù)；
時間與內(nèi)存復(fù)雜度均為線性；
在超參數(shù)、架構(gòu)（ResNet、ViT、ConvNet）以及不同領(lǐng)域之間表現(xiàn)穩(wěn)定；
不依賴啟發(fā)式技巧，以及適合分布式訓(xùn)練的實現(xiàn) ，僅需約50行代碼。

如圖1所示，在使用ImageNet-1K進行預(yù)訓(xùn)練并對凍結(jié)骨干網(wǎng)絡(luò)做線性評估的設(shè)定下， LeJEPA在ViT-H/14上可達到79%的精度。

提出新路徑
在AI領(lǐng)域，一個長期存在的核心問題，是讓模型學(xué)會對世界及其變化形成可用于實際決策和動作的表征（可操作表征）。
無論是圖像識別、機器人，還是物理學(xué)、太空探索，都會面臨一個共同的問題：
如何僅憑觀測數(shù)據(jù) ，學(xué)習(xí)到一個結(jié)構(gòu)清晰、便于操作的高維嵌入空間？

這里的「高維嵌入空間」，是指所有對象都被映射成高維向量，這些向量所在的數(shù)學(xué)空間。
使用深度網(wǎng)絡(luò)（參數(shù)化為非線性算子）將觀測映射到嵌入，是破解這道難題的標準第一步。
第二步，也是目前尚未標準化的部分，是如何訓(xùn)練。
JEPAs提出一種路徑：通過最大化語義相關(guān)視圖的嵌入之間的一致性預(yù)測來訓(xùn)練。
這里的「視圖」可以以兩種形式出現(xiàn)：變換或擾動。
它們可以包括掩碼、裁剪、模糊、時間或空間平移、幾何或光照變換、視角變化、來自不同傳感器模態(tài)的視圖等操作。
有監(jiān)督形式下，則會引入人工構(gòu)造的配對，例如圖像–文本對、文本–代碼對等。
無論采用哪種形式，這些視圖都被假定在語義上存在一定關(guān)聯(lián) ，從而讓預(yù)測任務(wù)能夠?qū)⒌那度雽R到數(shù)據(jù)中潛在的知識結(jié)構(gòu)上。

然而， JEPA的預(yù)測任務(wù)存在一些失敗模式，例如表征崩潰：將所有輸入映射到幾乎相同的嵌入（完全崩潰），或者只落在一個低維子空間上（維度崩潰）。
而有關(guān)JEPAs的理論基礎(chǔ)研究在很大程度上仍處于空白狀態(tài) ，研究人員通過重新審視支撐JEPAs的若干基礎(chǔ)設(shè)計原則來打破這一循環(huán) 。
這種審視首先源于一個問題：JEPAs至少應(yīng)該滿足哪些必要條件？由此，研究人員提煉出一種全新且精簡的JEPA「原則」：
解決預(yù)測任務(wù) ，同時強制嵌入服從各向同性高斯分布。

研究人員證明，為了在任意下游任務(wù)上最小化經(jīng)驗風(fēng)險， Enc() 應(yīng)該服從各向同性高斯分布。
研究人員首先通過分析線性探針（linear probe）來確定的嵌入的最優(yōu)分布，這是評估凍結(jié)編碼器時最常用的方法之一。
為了對預(yù)訓(xùn)練編碼器進行更靈活的評估，研究人員還分析了兩類廣泛使用的非線性方法：
一種是基于半徑的k-NN方法，該方法因其簡單性而經(jīng)常被采用；另一種是核方法，因其良好的理論可解析性而常用。

上圖展示了各向異性嵌入如何比各向同性嵌入產(chǎn)生更高的方差估計值（左圖）。
研究人員對二分類任務(wù)抽取了100個訓(xùn)練點，并擬合邏輯回歸模型——在多個訓(xùn)練集樣本上重復(fù)此過程。每次抽樣都會產(chǎn)生一個決策邊界（紫色）。

SIGReg
高維空間中可靠的各向同性高斯正則化
在證明各向同性高斯分布是最優(yōu)嵌入分布之后，研究人員引入了SIGReg 。
這是一個同時具有可微性、可擴展性、理論可證明性以及可解釋性的分布匹配目標函數(shù) 。
它建立在三個關(guān)鍵創(chuàng)新之上。
首先，研究人員將分布匹配表述為在原假設(shè)=下的統(tǒng)計假設(shè)檢驗；
其次，構(gòu)造了一類檢驗，在保持線性復(fù)雜度和高效多GPU擴展的同時，保證梯度和曲率均有界。
第三， SIGReg避免了維度災(zāi)難，從而徹底消除了退化的捷徑解（collapsed shortcut solutions）。

圖4展示了具有不同Sobolev平滑系數(shù)α的球面上分布示例。
由于目標密度（各向同性高斯分布）是平滑的，嵌入的α系數(shù)會迅速增長，從而使SIGReg不受維度災(zāi)難的影響。
研究人員證明， SIGReg繪制Epps-Pulley測試圖是穩(wěn)定且可擴展的。

圖5顯示了構(gòu)建的數(shù)據(jù)密度圖。其「X」分布的邊緣分布為標準高斯分布，協(xié)方差為單位矩陣（左側(cè)密度圖）。

圖6展示了從一個1024維標準高斯分布中抽取100個樣本（N=100），并改變前兩個坐標以生成圖5（最左列）中的「X」分布。
對于每個統(tǒng)計量（所有其他列），研究人員對樣本執(zhí)行梯度下降以最小化其值，在每次迭代步驟中，使用10個隨機方向的樣本（M=10）來評估SIGReg 。
結(jié)果表明，盡管這是一個高維分布且樣本數(shù)量有限，但SIGReg能夠捕獲退化子空間并相應(yīng)地調(diào)整數(shù)據(jù)以匹配各向同性高斯分布。

LeJEPA
穩(wěn)定且可擴展的實現(xiàn)
在確定各向同性高斯分布是基礎(chǔ)模型的最佳嵌入分布，并引入SIGReg來實現(xiàn)該分布之后，研究人員推出了完整的LeJEPA框架，并通過全面的實驗來驗證其有效性。

圖9展示了使用LeJEPA開箱即用的ImageNet-10預(yù)訓(xùn)練和凍結(jié)骨干網(wǎng)絡(luò)線性評估方法在timm模型上的應(yīng)用。
研究人員對學(xué)習(xí)率和權(quán)重衰減進行了交叉驗證。
雖然最佳模型和最差模型之間存在細微差異，但在涵蓋8個模型系列的50個模型中， LeJEPA能夠生成非平凡的表示，從而以SOTA水平解決下游任務(wù) 。
跨架構(gòu)穩(wěn)定性， LeJEPA是關(guān)鍵優(yōu)勢之一。
大多數(shù)現(xiàn)代自監(jiān)督學(xué)習(xí)方法都針對Vision Transformer進行了優(yōu)化，而LeJEPA無需修改，即可在各種不同的架構(gòu)系列中運行。
為了驗證這一結(jié)論，研究人員使用ImageNet-10數(shù)據(jù)集預(yù)訓(xùn)練了來自8個不同架構(gòu)系列的約50個模型，這些模型均來自timm庫，且參數(shù)量均小于2000萬。
所有模型均能學(xué)習(xí)到高質(zhì)量的表征，在凍結(jié)骨干線性探測的情況下， Top-1準確率達到了91.5%到95% 。
結(jié)果表明，在監(jiān)督學(xué)習(xí)環(huán)境中表現(xiàn)良好的模型，例如ResNet和Vision Transformer ，也同樣適用于LeJEPA 。
自監(jiān)督學(xué)習(xí)的一個關(guān)鍵優(yōu)勢在于學(xué)習(xí)能夠跨任務(wù)和領(lǐng)域泛化的通用表征。
然而，當(dāng)前前沿的基礎(chǔ)模型（如DINOv2/v3、I-JEPA）都是在自然圖像上進行預(yù)訓(xùn)練的，這迫使特定領(lǐng)域的從業(yè)者需要收集大量的標簽來進行監(jiān)督式微調(diào) 。
事實上，大多數(shù)前沿模型無法直接在這些領(lǐng)域進行訓(xùn)練，因為樣本數(shù)量可能很少，而且重新搜索超參數(shù)會非常耗時。

圖12展示了使用凍結(jié)骨干網(wǎng)絡(luò)或完全微調(diào)（列）以及不同類別樣本數(shù)（x軸）的LeJEPA在小型架構(gòu)（Galaxy10）上的域內(nèi)預(yù)訓(xùn)練，并結(jié)合線性探針評估。
研究人員將其與最先進的基礎(chǔ)模型（DINOv2/v3、I-JEPA）在3個不同的隨機種子上進行了比較。
結(jié)果表明， LeJEPA能夠開箱即用地在不同架構(gòu)上進行域內(nèi)預(yù)訓(xùn)練，并且性能優(yōu)于目前最先進的基礎(chǔ)模型。

圖13展示了基于最后一層閾值的涌現(xiàn)式目標分割， LeJEPA無需顯式監(jiān)督即可自然地學(xué)習(xí)分割和跟蹤顯著目標（如每個視頻右側(cè)的注意力圖所示）。

圖14展示了LeJEPA通過自監(jiān)督學(xué)習(xí)習(xí)得豐富的語義表征。
在沒有任何監(jiān)督的情況下， LeJEPA自發(fā)地構(gòu)建出語義豐富的表征：暖色（紅色/品紅色/粉色）始終用于表示前景物體（鸚鵡的身體、狗的臉），而冷色（青色/綠色/黃色）則用于表示背景和樹葉。
這種涌現(xiàn)的物體-背景分離和感知分組，完全基于未標記的數(shù)據(jù) ，揭示了世界的視覺結(jié)構(gòu) 。
研究人員在多個領(lǐng)域、超過60種架構(gòu)上驗證了LeJEPA ，其中包括參數(shù)規(guī)模高達18億的巨型模型版本。
結(jié)果證明，盡管其核心設(shè)計非常簡單， LeJEPA的核心實現(xiàn)代碼不足50行，但仍能夠達到當(dāng)前最先進方法的性能，該方法填補了長期以來在自監(jiān)督學(xué)習(xí)理論基礎(chǔ)研究領(lǐng)域的空白。

作者簡介
Yann LeCun
Yann LeCun是法國計算機科學(xué)家、深度學(xué)習(xí)先驅(qū) ，紐約大學(xué)終身教授，曾任Meta首席人工智能科學(xué)家。
他于20世紀90年代提出并工程化了卷積神經(jīng)網(wǎng)絡(luò)（LeNet），推動了深度學(xué)習(xí)在圖像識別等領(lǐng)域的實際落地，因此與Geoffrey Hinton、Yoshua Bengio一同被稱為「深度學(xué)習(xí)三巨頭」。
2018年，他因在神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)方面的開創(chuàng)性貢獻獲得圖靈獎。
近年來， LeCun主要關(guān)注自監(jiān)督學(xué)習(xí)、世界模型和能量基模型等方向，對當(dāng)前大模型通往AGI的前景持審慎甚至批評態(tài)度，同時強烈支持開源與開放科研。
參考資料：
https://arxiv.org/abs/2511.08544%20
https://x.com/iScienceLuvr/status/1988560605133812119?s=20