李飛飛和LeCun的世界模型之爭

李飛飛和LeCun的世界模型之爭

文章圖片

李飛飛和LeCun的世界模型之爭

文章圖片


Jay 發自 凹非寺量子位 | 公眾號 QbitAI
AGI之路 , 終于交匯到了世界模型的戰場 。
李飛飛 , 發布了旗下首款商用世界模型Marble;
幾乎同一時間 , Lecun離職Meta , 準備創立自己的世界模型公司;
在此之前 , 谷歌旗下的世界模型Genie 3 , 也曾掀起業界轟動 。
AI界三股大佬力量 , 雖然同樣進軍世界模型 , 卻意味著三種截然不同的技術路線賭注——
世界模型之爭李飛飛剛剛為空間智能舉大旗的萬字長文發布 , 她旗下的創業公司World Labs , 就緊鑼密鼓推出了首款商用世界模型Marble 。

業界普遍認為Marble有商業化潛力 , 是因為它生成的是持久的、可下載的3D環境 。
團隊表示 , 這種方式能顯著減少場景變形和細節不一致的問題 , 而且還能把生成的世界導出成高斯斑點、Mesh網格 , 甚至直接導出視頻 。
更進一步 , Marble還內置一個原生的AI世界編輯器Chisel , 用戶只需一句提示 , 就能按自己的想法自由改造世界 。

對于做VR或游戲的開發者來說 , 「一句提示→直接生成3D世界→一鍵導出到Unity」這樣的鏈路 , 非常有幫助 。
然而 , Hacker News的一名機器學習工程師指出 , 比起所謂的世界模型 , Marble看起來更像是一個單純的3D渲染模型 。
這難道不就是高斯Splat模型嗎?我在AI行業干了這么久 , 到現在都還是搞不明白「世界模型」里的「世界」究竟指什么 。
Reddit網友的說法則更加直接:
用高斯散射、深度和圖像修復把圖片轉成3D環境 , 確實很酷 , 但這就是一套3D高斯生成流水線 , 不是機器人的大腦 。
這里的高斯潑濺 , 指的是近幾年3D建模里最火的一類新技術 。
它把一個場景表示成成千上萬個漂浮在空間中的彩色模糊小斑點(也就是高斯) , 再把這些斑點「潑濺」到屏幕上 , 讓它們自然融合成一張圖像 。
可以這么理解:高斯就像一個漂浮在三維空間里、半透明、帶光暈、邊緣柔軟的小氣泡 。
單個氣泡當然軟乎乎的成不了形 , 但如果成千上萬個這樣的氣泡聚在一起 , 再從不同角度渲染出來 , 就能組合出一幅精美的三維畫面 。
這樣做 , 不需要像傳統攝影測量那樣走復雜的建模流程 , 雖然犧牲了一些精度 , 但速度極快 , 而且操作更輕松 。
Marble采取的正是這樣一種路徑 。
然而 , 這也意味著 , Marble可能并不是大家想的那種、可以直接用于機器人訓練的「世界模型」 。
Marble確實構建了一個完整世界 , 但我們看到的其實只是一個能被渲染器直接轉成像素的視圖 。
換句話說 , 它捕捉的是「表面是什么樣子」 , 而并沒有內置「這個世界為什么會這樣運作」的物理規律 。
這對于人來說是完全夠用了 , 但對于機器人來說 , 重要的其實不是這些視覺信息 , 而是背后的因果結構——
比如 , 一放在斜坡上的球會滾下來 , 這對人類來說是看一眼就懂的事;
但機器人想做出類似判斷 , 還需要質量、摩擦、速度……這些信息在Marble里根本不存在 。
或許正是因為如此 , 在Marble自己的博客上 , 雖然屢屢提及「世界模型」與「導出高斯散射體、網格和視頻」 , 但幾乎完全沒有提到機器人 。
不過在商業化層面 , Marble明顯更具優勢 。
相比起被AI圈熱議的那類、可孕育具身智能世界模型 , Marble已經不是一個遙遠的概念 , 而是一款能夠立刻融入游戲開發者日常工作流程的實用工具 。
但這也不禁令人有些黯然 , 難道那條能通往AGI的「世界模型」之路 , 只是個噱頭嗎?
當然不是 。
確實存在能與機器人真正互動的世界模型 , 比如——LeCun的JEPA 。
LeCun理解的「世界模型」 , 根子并不在3D圖形學 , 而是在控制理論和認知科學 。
它不需要輸出漂亮的畫面 , 因為你根本「看不到」這種世界模型 。
這類世界模型的任務 , 不是渲染精美的像素 , 是讓機器人能提前想幾步 , 學會在行動前預判世界的變化 。
JEPA走的正是這條路——
LeCun認為 , 對于AI來說 , 只有中間那個抽象表征才重要 , 模型沒必要浪費算力去生成像素 , 只需專注于捕捉那些能用于AI決策的世界狀態 。
所以 , 這類模型雖然沒法像Marble那樣生成精致的3D圖像 , 看上去不那么「驚艷」 , 但它更像是在訓練機器人的「大腦」 。
其優勢在于對世界更本質的理解 , 因此 , 更適合作為機器人的健身房 。
這么一對比 , 李飛飛和LeCun在「世界模型」上的路線幾乎南轅北轍——
前者做的是一個前端資產生成器;后者則更像一個后端預測系統 。
而在這二位神仙打架的中間 , 還站著一位科技巨頭——谷歌 。
今年8月 , 谷歌DeepMind推出了新版世界模型 , 這就是Genie 3 。
只需一句Prompt , 模型就能生成一個可交互的視頻環境 , 用戶可以在其中自由探索數分鐘 。

最令人印象深刻的是 , Genie 3首次在這一類模型中解決了長時一致性的問題——不會再出現那種「轉個身整棟樓消失」的狀況 。
同時 , 它還支持觸發世界事件 , 比如「開始下雨」「夜幕降臨」等 , 整個過程就像一款由模型而非傳統引擎驅動的電子游戲 。
不過 , Genie應該更像一款「世界模型式視頻生成器」 。
盡管Genie 3讓「世界動了起來」 , 它的核心仍然是視頻邏輯 , 而非JEPA那種基于物理和因果的邏輯 。
也就是說 , 它雖然可以生成動態畫面 , 但也不能完全「理解」這些畫面背后的物理規律 。
依然可以用于機器人訓練 , 但不如JEPA那樣直擊本質 。
與此同時 , 畫面質量和分辨率也有限 , 難以與Marble那種高精度、可導出的3D資產相提并論 。
綜上來看 , 三種「世界模型」雖然都在描繪「世界」 , 但理解路徑完全不同 , 也因此各有千秋——
Marble渲染「世界長什么樣」 , Genie 3展示「世界怎么變」 , JEPA則探究「世界的結構是什么」 。
而市面上幾乎所有的「世界模型」 , 大致也都可歸入這三種范式:
世界模型金字塔 第一種:世界模型即界面以Marble為代表 , 它讓人們能夠從文字或二維素材 , 直接生成可編輯、可分享的三維環境 。
在這種模式下 , 「世界」是呈現在VR頭顯、顯示器或電腦屏幕上的那片可供人觀看與游走的空間 。
第二種:世界模型即模擬器:以Genie 3為代表 , 這類模型能生成連續、可控制的視頻式世界 , 讓智能體在其中反復嘗試、失敗、再嘗試 。
像SIMA 2這樣的智能體 , 便可把這類世界當作「虛擬健身房」 。
第三種:世界模型即認知框架以JEPA為代表 , 這是一種高度抽象的形式 , 沒有像前兩種一樣可供人欣賞的畫面 。
在這里 , 關注點不在于渲染 , 「世界」以潛在變量和狀態轉移函數的形式呈現 , 可以說是機器人完美的訓練基地 。

在智源學者趙昊看來 , 其實可以將三者拼裝為一個「世界模型金字塔」——
自下而上依次是李飛飛、Genie 3、Lecun 。
站在地面仰望這座金字塔:
越往上 , 模型越抽象、也越貼近AI的思維方式 , 因此更適合用于機器人訓練與推理;
越往下 , 模型在外觀、交互與可視化等方面對人類來說更真實 , 但卻更難被機器人理解 。
參考鏈接:[1
https://entropytown.com/articles/2025-11-13-world-model-lecun-feifei-li/[2
https://mp.weixin.qq.com/s/D7G3S_AIfzQfITgqXIKQAg
— 完 —
量子位 QbitAI · 頭條號
【李飛飛和LeCun的世界模型之爭】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀