李飛飛發布全新世界模型,單GPU就能跑


李飛飛的世界模型創業 , 最新成果來了!
剛剛 , 教母親自宣布對外推出全新模型RTFM(A Real-Time Frame Model) , 不僅具備實時運行、持久性和3D一致性 , 更關鍵的是——
【李飛飛發布全新世界模型,單GPU就能跑】單張H100 GPU就能跑 。
此外 , RTFM的設計遵循三大核心原則:
效率:僅需單張H100 GPU , RTFM便能以交互級幀率實時完成推理運算 。
可擴展性:該架構具備隨數據量與算力增長而持續擴展的能力 。 它通過端到端的通用架構從海量視頻數據中自主學習 , 無需依賴顯式3D表征即可構建三維世界模型 。
持久性:用戶可無限時長與RTFM交互 , 所有場景將永久留存 。 該系統構建的持久化3D世界不會因視角轉換而消失 。
下面具體來看 。

世界模型需要大量計算資源
強大的世界模型能夠實時重建、生成并模擬具有持久性、可交互且物理精確的世界 。 這類模型將徹底改變從媒體到機器人技術等各行各業 。
過去一年 , 生成式視頻建模的進展已成功應用于生成式世界建模領域 。
隨著技術發展 , 一個事實愈發清晰:生成式世界模型對算力的需求將遠超當今的大型語言模型 。
若直接套用現有視頻架構 , 生成60幀的4K交互視頻流每秒需產生超過10萬個token(約等于《弗蘭肯斯坦》或首部《哈利·波特》的篇幅) 。
而要維持一小時以上的持續交互 , 需處理的上下文token更將突破1億大關 。 基于當前計算基礎設施 , 這既不可行也不具備經濟性 。
李飛飛團隊深信“慘痛教訓”揭示的規律:
那些能隨算力增長優雅擴展的簡潔方法終將在AI領域占據主導 , 因為它們能享受數十年來推動技術發展的算力成本指數級下降紅利 。 生成式世界模型正處在絕佳位置 , 必將從持續降低的算力成本中獲益 。
這也就引出一個關鍵問題:生成式世界模型是否會被當前硬件條件所限制?能否現在就預覽這項技術的雛形?
于是 , 李飛飛團隊設定了一個明確目標:設計一款足夠高效、可立即部署 , 并能隨算力提升持續擴展的生成式世界模型 。
他們的目的是打造僅需單張H100 GPU即可驅動的模型 , 在保持交互幀率的同時 , 確保虛擬世界永不消散 。 實現這些技術指標 , 將讓他們提前窺見未來——在當下硬件上體驗明日模型可能達到的高度 。
這一目標深刻影響著他們從任務設定到模型架構的整個系統設計 。 通過精心優化推理堆棧的每個環節 , 融合架構設計、模型蒸餾與推理優化的前沿突破 , 他們致力于在當今硬件上呈現對未來模型最高保真度預覽 。

世界模型作為學習渲染器
傳統的3D圖形管線采用顯式3D表征(如三角網格、高斯潑濺)構建世界模型 , 再通過渲染生成2D圖像 。 這些管線依賴人工設計的數據結構與算法來模擬3D幾何、材質、光照、陰影及反射等效果 。
數十年來 , 這類方法始終是計算機圖形學領域的中流砥柱 , 但其難以隨數據量與算力增長實現線性擴展 。
RTFM則另辟蹊徑 。 基于生成式視頻建模的最新突破 , 研究團隊通過訓練單一神經網絡 , 輸入場景的單張或多張2D圖像 , 即可從全新視角生成該場景的2D圖像 , 全程無需構建任何顯式3D表征 。
RTFM還采用作用于幀序列的自回歸擴散變換器架構 , 通過海量視頻數據進行端到端訓練 , 實現基于歷史幀的后續幀預測 。
RTFM 可以被視為一種可學習的渲染器(learned renderer) 。 它首先將輸入的圖像幀轉換為神經網絡中的激活(即KV cache) , 這些激活以隱式方式表示整個世界 , 在生成新幀的過程中 , 網絡通過注意力機制從這種表示中讀取信息 , 從而根據輸入視角生成與之保持一致的世界新視圖 。
從輸入視圖轉換為世界表示 , 以及再從該表示中渲染新幀的機制 , 并不是通過手工設計的 , 而是通過端到端的數據訓練自動學得的 。
RTFM只需在訓練過程中觀察到這些現象 , 就能夠學會建模諸如反射、陰影等復雜效果 。
可以說 , RTFM模糊了“重建”(在已有視角之間進行插值)與“生成”(創造輸入視角中不可見的新內容)之間的界限 , 而這兩者在計算機視覺中歷史上一直被視為兩個獨立的問題 。
當RTFM被提供大量輸入視角時 , 由于任務約束更強 , 它更傾向于執行重建;當輸入視角較少時 , 它則被迫進行超出已有視角的外推生成 。

將姿態幀作為空間記憶
現實世界的一個關鍵特性是持久性(persistence):當你移開視線時 , 世界不會消失或完全改變 , 無論你離開多長時間 , 你總是可以回到之前去過的地方 。
這對自回歸幀模型來說一直是一個挑戰 。 世界僅通過二維圖像幀被隱式表示 , 因此 , 實現持久性要求模型在用戶探索世界的過程中 , 對不斷增長的幀集合進行推理 。 這意味著每生成一幀的成本都比前一幀更高 , 因此模型對世界的記憶實際上受到其計算資源預算的限制 。
RTFM通過將每一幀建模為在三維空間中具有一個姿態(位置和方向)來規避這一問題 。 他們通過向模型提供待生成幀的姿態來生成新幀 。
模型對世界的記憶(包含在其幀中)具有空間結構 。 它將帶有姿態的幀作為空間記憶使用 。 這為模型提供了一個弱先驗——即它所建模的世界是三維歐幾里得空間——而無需強制模型顯式預測該世界中物體的三維幾何形狀 。
RTFM的空間記憶使得持久性不受限制 。 在生成新幀時 , 他們會從已姿態幀的空間記憶中檢索附近幀 , 以為模型構建一個定制的上下文 。
團隊將這一技術稱為上下文切換(context juggling):模型在不同空間區域生成內容時會使用不同的上下文幀 。 這使得RTFM能夠在長時間交互中保持對大型世界的持久記憶 , 而無需對不斷增長的幀集合進行推理 。
最后 , 該模型即日起以預覽版形式開放體驗 , 現在就可以試起來了…
試完歡迎回來補個反饋評論哦 , 筆芯~
參考鏈接:
[1
https://x.com/drfeifei/status/1978840835341914164
[2
https://x.com/theworldlabs/status/1978839175320186988
[3
https://www.worldlabs.ai/blog/rtfm
本文來自微信公眾號“量子位” , 作者:時令 , 36氪經授權發布 。

    推薦閱讀