
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
編輯:元宇
【新智元導(dǎo)讀】就在Yann LeCun即將離職Meta創(chuàng)業(yè)的消息在AI圈刷屏?xí)r , 他的一篇關(guān)于自監(jiān)督學(xué)習(xí)的新論文也在arXiv上線 。 該論文提出了一種新框架LeJEPA , 為解決當(dāng)前JEPA方法中存在的多種失效模式提供了新路徑 。
11月11日 , Meta首席AI科學(xué)家Yann LeCun在arXiv上提交了他與Randall Balestriero合作的一篇新論文 。
前Stability AI研究負責(zé)人Tanishq Mathew Abraham , 在X平臺上推薦了這篇論文 , 并調(diào)侃說這可能是LeCun在Meta發(fā)表的最后一篇論文之一 。
因為就在這篇論文提交的同一天 , 媒體也曝出了LeCun即將在未來幾個月離開Meta創(chuàng)業(yè)的消息 。
【LeCun在Meta的「最后一作」】Abraham評論道 , 這是一篇很有意思的論文 。
它提出了一種新框架LeJEPA , 可以解決當(dāng)前JEPA方法中所存在的多種失效模式 , 僅需約50行代碼即可實現(xiàn) 。
論文地址:https://arxiv.org/pdf/2511.08544
對于LeCun這篇論文也頗具特殊意義——
既是為他在Meta FAIR實驗室十多年的研究工作劃下句點 , 同時也向外界傳遞出他下一步創(chuàng)業(yè)的新方向 。
有網(wǎng)友評論這意味著LeCun回歸初心 , 追求以優(yōu)雅的力量取代大模型的暴力擴展 。
為JEPA理論研究奠基
聯(lián)合嵌入預(yù)測架構(gòu)(Joint-Embedding Predictive Architectures , JEPAs) , 由于缺乏明確的實踐指南和系統(tǒng)理論 , 目前相關(guān)研究大多是臨時性探索 。
論文給出了一套完整的JEPA理論 , 并將其具體落地為LeJEPA , 這是一種輕量、可擴展且有堅實理論基礎(chǔ)的訓(xùn)練目標 。
研究人員證明 , 若要最小化下游任務(wù)的預(yù)測風(fēng)險 , JEPA的嵌入理想情況下應(yīng)服從各向同性高斯分布 。
為此 , 他們提出一個新的目標函數(shù)Sketched Isotropic Gaussian Regularization(SIGReg , 隨機草圖各向同性高斯正則化) , 用于約束嵌入向該理想分布收斂 。
LeJEPA融合了JEPA和SIGReg思想 , 兼具多方面的理論和實踐優(yōu)勢:
- 只需要一個權(quán)衡超參數(shù);
- 時間與內(nèi)存復(fù)雜度均為線性;
- 在超參數(shù)、架構(gòu)(ResNet、ViT、ConvNet)以及不同領(lǐng)域之間表現(xiàn)穩(wěn)定;
- 不依賴啟發(fā)式技巧 , 以及適合分布式訓(xùn)練的實現(xiàn) , 僅需約50行代碼 。
如圖1所示 , 在使用ImageNet-1K進行預(yù)訓(xùn)練并對凍結(jié)骨干網(wǎng)絡(luò)做線性評估的設(shè)定下 , LeJEPA在ViT-H/14上可達到79%的精度 。
提出新路徑
在AI領(lǐng)域 , 一個長期存在的核心問題 , 是讓模型學(xué)會對世界及其變化形成可用于實際決策和動作的表征(可操作表征) 。
無論是圖像識別、機器人 , 還是物理學(xué)、太空探索 , 都會面臨一個共同的問題:
如何僅憑觀測數(shù)據(jù) , 學(xué)習(xí)到一個結(jié)構(gòu)清晰、便于操作的高維嵌入空間?
這里的「高維嵌入空間」 , 是指所有對象都被映射成高維向量 , 這些向量所在的數(shù)學(xué)空間 。
使用深度網(wǎng)絡(luò)(參數(shù)化為非線性算子)將觀測映射到嵌入 , 是破解這道難題的標準第一步 。
第二步 , 也是目前尚未標準化的部分 , 是如何訓(xùn)練 。
JEPAs提出一種路徑:通過最大化語義相關(guān)視圖的嵌入之間的一致性預(yù)測來訓(xùn)練 。
這里的「視圖」可以以兩種形式出現(xiàn):變換或擾動 。
它們可以包括掩碼、裁剪、模糊、時間或空間平移、幾何或光照變換、視角變化、來自不同傳感器模態(tài)的視圖等操作 。
有監(jiān)督形式下 , 則會引入人工構(gòu)造的配對 , 例如圖像–文本對、文本–代碼對等 。
無論采用哪種形式 , 這些視圖都被假定在語義上存在一定關(guān)聯(lián) , 從而讓預(yù)測任務(wù)能夠?qū)⒌那度雽R到數(shù)據(jù)中潛在的知識結(jié)構(gòu)上 。
然而 , JEPA的預(yù)測任務(wù)存在一些失敗模式 , 例如表征崩潰:將所有輸入映射到幾乎相同的嵌入(完全崩潰) , 或者只落在一個低維子空間上(維度崩潰) 。
而有關(guān)JEPAs的理論基礎(chǔ)研究在很大程度上仍處于空白狀態(tài) , 研究人員通過重新審視支撐JEPAs的若干基礎(chǔ)設(shè)計原則來打破這一循環(huán) 。
這種審視首先源于一個問題:JEPAs至少應(yīng)該滿足哪些必要條件?由此 , 研究人員提煉出一種全新且精簡的JEPA「原則」:
解決預(yù)測任務(wù) , 同時強制嵌入服從各向同性高斯分布 。
研究人員證明 , 為了在任意下游任務(wù)上最小化經(jīng)驗風(fēng)險 , Enc() 應(yīng)該服從各向同性高斯分布 。
研究人員首先通過分析線性探針(linear probe)來確定的嵌入的最優(yōu)分布 , 這是評估凍結(jié)編碼器時最常用的方法之一 。
為了對預(yù)訓(xùn)練編碼器進行更靈活的評估 , 研究人員還分析了兩類廣泛使用的非線性方法:
一種是基于半徑的k-NN方法 , 該方法因其簡單性而經(jīng)常被采用;另一種是核方法 , 因其良好的理論可解析性而常用 。
上圖展示了各向異性嵌入如何比各向同性嵌入產(chǎn)生更高的方差估計值(左圖) 。
研究人員對二分類任務(wù)抽取了100個訓(xùn)練點 , 并擬合邏輯回歸模型——在多個訓(xùn)練集樣本上重復(fù)此過程 。 每次抽樣都會產(chǎn)生一個決策邊界(紫色) 。
SIGReg
高維空間中可靠的各向同性高斯正則化
在證明各向同性高斯分布是最優(yōu)嵌入分布之后 , 研究人員引入了SIGReg 。
這是一個同時具有可微性、可擴展性、理論可證明性以及可解釋性的分布匹配目標函數(shù) 。
它建立在三個關(guān)鍵創(chuàng)新之上 。
首先 , 研究人員將分布匹配表述為在原假設(shè)=下的統(tǒng)計假設(shè)檢驗;
其次 , 構(gòu)造了一類檢驗 , 在保持線性復(fù)雜度和高效多GPU擴展的同時 , 保證梯度和曲率均有界 。
第三 , SIGReg避免了維度災(zāi)難 , 從而徹底消除了退化的捷徑解(collapsed shortcut solutions) 。
圖4展示了具有不同Sobolev平滑系數(shù)α的球面上分布示例 。
由于目標密度(各向同性高斯分布)是平滑的 , 嵌入的α系數(shù)會迅速增長 , 從而使SIGReg不受維度災(zāi)難的影響 。
研究人員證明 , SIGReg繪制Epps-Pulley測試圖是穩(wěn)定且可擴展的 。
圖5顯示了構(gòu)建的數(shù)據(jù)密度圖 。 其「X」分布的邊緣分布為標準高斯分布 , 協(xié)方差為單位矩陣(左側(cè)密度圖) 。
圖6展示了從一個1024維標準高斯分布中抽取100個樣本(N=100) , 并改變前兩個坐標以生成圖5(最左列)中的「X」分布 。
對于每個統(tǒng)計量(所有其他列) , 研究人員對樣本執(zhí)行梯度下降以最小化其值 , 在每次迭代步驟中 , 使用10個隨機方向的樣本(M=10)來評估SIGReg 。
結(jié)果表明 , 盡管這是一個高維分布且樣本數(shù)量有限 , 但SIGReg能夠捕獲退化子空間并相應(yīng)地調(diào)整數(shù)據(jù)以匹配各向同性高斯分布 。
LeJEPA
穩(wěn)定且可擴展的實現(xiàn)
在確定各向同性高斯分布是基礎(chǔ)模型的最佳嵌入分布 , 并引入SIGReg來實現(xiàn)該分布之后 , 研究人員推出了完整的LeJEPA框架 , 并通過全面的實驗來驗證其有效性 。
圖9展示了使用LeJEPA開箱即用的ImageNet-10預(yù)訓(xùn)練和凍結(jié)骨干網(wǎng)絡(luò)線性評估方法在timm模型上的應(yīng)用 。
研究人員對學(xué)習(xí)率和權(quán)重衰減進行了交叉驗證 。
雖然最佳模型和最差模型之間存在細微差異 , 但在涵蓋8個模型系列的50個模型中 , LeJEPA能夠生成非平凡的表示 , 從而以SOTA水平解決下游任務(wù) 。
跨架構(gòu)穩(wěn)定性 , LeJEPA是關(guān)鍵優(yōu)勢之一 。
大多數(shù)現(xiàn)代自監(jiān)督學(xué)習(xí)方法都針對Vision Transformer進行了優(yōu)化 , 而LeJEPA無需修改 , 即可在各種不同的架構(gòu)系列中運行 。
為了驗證這一結(jié)論 , 研究人員使用ImageNet-10數(shù)據(jù)集預(yù)訓(xùn)練了來自8個不同架構(gòu)系列的約50個模型 , 這些模型均來自timm庫 , 且參數(shù)量均小于2000萬 。
所有模型均能學(xué)習(xí)到高質(zhì)量的表征 , 在凍結(jié)骨干線性探測的情況下 , Top-1準確率達到了91.5%到95% 。
結(jié)果表明 , 在監(jiān)督學(xué)習(xí)環(huán)境中表現(xiàn)良好的模型 , 例如ResNet和Vision Transformer , 也同樣適用于LeJEPA 。
自監(jiān)督學(xué)習(xí)的一個關(guān)鍵優(yōu)勢在于學(xué)習(xí)能夠跨任務(wù)和領(lǐng)域泛化的通用表征 。
然而 , 當(dāng)前前沿的基礎(chǔ)模型(如DINOv2/v3、I-JEPA)都是在自然圖像上進行預(yù)訓(xùn)練的 , 這迫使特定領(lǐng)域的從業(yè)者需要收集大量的標簽來進行監(jiān)督式微調(diào) 。
事實上 , 大多數(shù)前沿模型無法直接在這些領(lǐng)域進行訓(xùn)練 , 因為樣本數(shù)量可能很少 , 而且重新搜索超參數(shù)會非常耗時 。
圖12展示了使用凍結(jié)骨干網(wǎng)絡(luò)或完全微調(diào)(列)以及不同類別樣本數(shù)(x軸)的LeJEPA在小型架構(gòu)(Galaxy10)上的域內(nèi)預(yù)訓(xùn)練 , 并結(jié)合線性探針評估 。
研究人員將其與最先進的基礎(chǔ)模型(DINOv2/v3、I-JEPA)在3個不同的隨機種子上進行了比較 。
結(jié)果表明 , LeJEPA能夠開箱即用地在不同架構(gòu)上進行域內(nèi)預(yù)訓(xùn)練 , 并且性能優(yōu)于目前最先進的基礎(chǔ)模型 。
圖13展示了基于最后一層閾值的涌現(xiàn)式目標分割 , LeJEPA無需顯式監(jiān)督即可自然地學(xué)習(xí)分割和跟蹤顯著目標(如每個視頻右側(cè)的注意力圖所示) 。
圖14展示了LeJEPA通過自監(jiān)督學(xué)習(xí)習(xí)得豐富的語義表征 。
在沒有任何監(jiān)督的情況下 , LeJEPA自發(fā)地構(gòu)建出語義豐富的表征:暖色(紅色/品紅色/粉色)始終用于表示前景物體(鸚鵡的身體、狗的臉) , 而冷色(青色/綠色/黃色)則用于表示背景和樹葉 。
這種涌現(xiàn)的物體-背景分離和感知分組 , 完全基于未標記的數(shù)據(jù) , 揭示了世界的視覺結(jié)構(gòu) 。
研究人員在多個領(lǐng)域、超過60種架構(gòu)上驗證了LeJEPA , 其中包括參數(shù)規(guī)模高達18億的巨型模型版本 。
結(jié)果證明 , 盡管其核心設(shè)計非常簡單 , LeJEPA的核心實現(xiàn)代碼不足50行 , 但仍能夠達到當(dāng)前最先進方法的性能 , 該方法填補了長期以來在自監(jiān)督學(xué)習(xí)理論基礎(chǔ)研究領(lǐng)域的空白 。
作者簡介
Yann LeCun
Yann LeCun是法國計算機科學(xué)家、深度學(xué)習(xí)先驅(qū) , 紐約大學(xué)終身教授 , 曾任Meta首席人工智能科學(xué)家 。
他于20世紀90年代提出并工程化了卷積神經(jīng)網(wǎng)絡(luò)(LeNet) , 推動了深度學(xué)習(xí)在圖像識別等領(lǐng)域的實際落地 , 因此與Geoffrey Hinton、Yoshua Bengio一同被稱為「深度學(xué)習(xí)三巨頭」 。
2018年 , 他因在神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)方面的開創(chuàng)性貢獻獲得圖靈獎 。
近年來 , LeCun主要關(guān)注自監(jiān)督學(xué)習(xí)、世界模型和能量基模型等方向 , 對當(dāng)前大模型通往AGI的前景持審慎甚至批評態(tài)度 , 同時強烈支持開源與開放科研 。
參考資料:
https://arxiv.org/abs/2511.08544%20
https://x.com/iScienceLuvr/status/1988560605133812119?s=20
推薦閱讀
- AMD高校春雨計劃在京啟動,攜手生態(tài)鏈以AI賦能教育新生態(tài)
- AI云的新分野:芯在,云在
- 手機市場大洗牌:iPhone暴增華為失守,OV小米都在上漲!
- DeepMind打造多游戲通用智能體SIMA 2,讓AI在虛擬世界中自我訓(xùn)練
- 今年雙11,品牌在抖音都靠什么贏
- 不止騰訊!蘋果應(yīng)用生態(tài)罕見開放,小程序終于「合法」存在
- 曝iPhone17系列激活量本周破千萬,在華銷售勢頭強勁
- 實測25款常用App廣告情況:仍存在“搖一搖”跳轉(zhuǎn),還有霸屏廣告無法關(guān)閉
- 在SAIL看AI趨勢 SAIL里藏了AI的流行密碼
- 為什么曲面屏現(xiàn)在成了“稀罕物”?
