單張顯卡實時生成3D世界，李飛飛World Labs推出全新世界模型RTFM_英偉達|芯片|ai|it芯片

當地時間 10 月 16 日，由知名學者李飛飛領銜的創業公司 World Labs 宣布推出 RTFM（Real-Time Frame Model ，實時框架模型）。這是一款能夠實時生成交互式三維世界的全新世界模型，據團隊介紹， RTFM 僅需單塊 H100 GPU ，就能實時生成可交互的三維世界。

去年十二月， World Labs 推出了首個重磅產品，展示了從單張圖片生成持久三維世界的能力。彼時，業界已經為這種“圖生世界”的技術所震撼。而如今發布的 RTFM ，則在效率和交互性上實現了新的突破。

按照 World Labs 官方的描述， RTFM 圍繞三個核心設計原則展開。

首先是效率——這款模型能夠在單張 H100 GPU 上以交互式幀率運行推理。在生成式人工智能領域，算力消耗一直是制約技術落地的瓶頸。若要實現四千分辨率、每秒六十幀的交互式視頻流，傳統視頻架構需要每秒生成超過十萬個 token ，這相當于每秒輸出一本《弗蘭肯斯坦》或《哈利·波特》第一部的文本量。要讓這樣的生成持續一小時以上，系統需要處理超過一億個 token 的上下文。這在當前的計算基礎設施下既不可行，也不經濟。李飛飛團隊信奉所謂的“苦澀教訓”（The Bitter Lesson）：那些能夠優雅地隨計算資源擴展的簡單方法，往往會在 AI 發展中勝出，因為它們能夠受益于計算成本的指數級下降。

RTFM 的設計哲學正是建立在這一信念之上。他們在技術路線上做出了大膽的取舍，從任務設定到模型架構，再到推理堆棧的每個環節，都進行了精心優化。團隊運用了最新的架構設計、模型蒸餾和推理優化技術，試圖在今天的硬件上，提前展現未來模型的能力。
【單張顯卡實時生成3D世界，李飛飛World Labs推出全新世界模型RTFM】
其次是可擴展性。 RTFM 的架構設計從一開始就考慮到了隨數據和算力增長而擴展的能力。不同于傳統三維圖形管線依賴顯式三維表示——如三角網格或高斯斑點——的做法， RTFM 走了一條截然不同的路徑。它建立在生成式視頻建模的最新進展之上，訓練一個單一的神經網絡，輸入一張或多張場景的二維圖像，然后生成從新視角觀察該場景的二維圖像，整個過程無需構建任何顯式的三維表示。

從技術架構上看， RTFM 是一個自回歸擴散 Transformer（Diffusion Transformer），它在序列幀上進行操作，通過大規模視頻數據的端到端訓練，能夠基于之前的幀預測下一幀。這里可以將 RTFM 理解為一種“習得的渲染器”（Learned Renderer）。輸入的幀被轉換成神經網絡激活——也就是鍵值緩存（Key-Value Cache ， KV Cache），這種緩存隱式地表征了世界。在生成新幀時，網絡通過注意力機制讀取這種表征，創造出與輸入視角一致的新視角。將輸入視角轉換為世界表征、再從這些表征渲染新幀的機制，全部是從數據中端到端學習而來，而非人工設計。

因此， RTFM 能夠學會模擬復雜的光影效果——反射、陰影、光澤表面、鏡頭眩光——只需要在訓練過程中觀察這些現象即可。團隊展示的案例中，賽博朋克風格的潛艇廚房、玻璃結構、電視屏幕中的復雜反射，都由模型自然生成，效果相當不錯。

與此同時， RTFM 模糊了“重建”和“生成”之間的界限，這兩者在計算機視覺領域歷來被當作不同問題處理。當輸入視角較多時，模型傾向于執行重建任務，因為約束條件更強；當輸入視角較少時，模型則被迫進行外推，創造輸入中不可見的內容。這種連續性讓 RTFM 既能處理真實世界場景的渲染——團隊展示了從短視頻重建現實場景的案例——也能從單張圖片生成想象中的三維世界。結合 World Labs 此前發布的 Marble 技術，用戶可以從一張圖片出發，探索完整的三維環境。

第三個原則是持久性。真實世界有一個關鍵屬性——當你轉過身去，世界并不會消失或徹底改變，你總能回到之前訪問過的地方，無論離開多久。但這對于自回歸幀模型來說一直是個挑戰。由于世界僅通過二維圖像幀隱式表征，持久性要求模型在用戶探索世界時，需要對不斷增長的幀集合進行推理。這導致每生成一幀都比前一幀更加昂貴，模型對世界的記憶實際上受限于計算預算。

RTFM 用一種巧妙的方法繞過了這個問題，它為每一幀賦予了三維空間中的“位姿”——即位置和方向。生成新幀時，系統會以待生成幀的位姿作為查詢條件。這樣一來，模型對世界的記憶，也就是它所記錄的幀，就具有了空間結構。這些帶位姿的幀構成了一種空間記憶。這賦予了模型一個弱先驗——它所建模的世界是一個三維歐幾里得空間——而無需強制它去顯式預測該世界中物體的三維幾何形狀。

在生成新幀時， RTFM 會從空間記憶中檢索附近的幀，為模型形成定制化的“上下文” 。團隊將這種技術稱為“上下文切換”（context juggling）——模型在空間的不同區域生成圖像時，使用不同的上下文幀。這使得 RTFM 能夠在長時間交互中維持大型世界，而無需對不斷增長的幀集合進行推理。演示視頻中，用戶可以在一個帶有光澤反射的大堂中自由移動，幾何細節在整個場景中保持一致，即便離開又返回也不會出現崩塌。

World Labs 在博客中表示， RTFM 目前還只是個開始。團隊接下來想增強對動態世界的建模，讓用戶能真正與生成的世界產生交互。現在的版本針對單張 H100 顯卡做了優化，但他們預期更大的模型、更多的算力投入，會持續帶來性能提升。

有興趣的用戶現在可以訪問 World Labs 官網，在瀏覽器中體驗 RTFM 的演示版本。

參考資料：
1.https://www.worldlabs.ai/blog/rtfm

運營/排版：何晨龍

單張顯卡實時生成3D世界，李飛飛World Labs推出全新世界模型RTFM

推薦閱讀

新奶瓶怎么消毒消毒新奶瓶方法

怎么下載郵箱里的賀卡

華為nova5pro跑分

抖音審核時間長是什么原因

美團上面打我電話怎么查到座機上

嘀嘀打車預約在哪里查看

方志敏的革命語錄

升級5.24版帶來的煩惱

平底鍋煎金針菇的做法

怎樣在AI中將形狀擴展輪廓

青團隔天吃怎么保存

成都理工大學是幾本，成都理工大是三本還是二本

求助各位大神錘子停在錘子白色圖標

關于堅果信號不好

骷髏王怎么樣,為何骷髏王火爆

咸蛋黃焗南瓜的做法步驟