當地時間 10 月 16 日 , 由知名學者李飛飛領銜的創業公司 World Labs 宣布推出 RTFM(Real-Time Frame Model , 實時框架模型) 。 這是一款能夠實時生成交互式三維世界的全新世界模型 , 據團隊介紹 , RTFM 僅需單塊 H100 GPU , 就能實時生成可交互的三維世界 。
去年十二月 , World Labs 推出了首個重磅產品 , 展示了從單張圖片生成持久三維世界的能力 。 彼時 , 業界已經為這種“圖生世界”的技術所震撼 。 而如今發布的 RTFM , 則在效率和交互性上實現了新的突破 。
按照 World Labs 官方的描述 , RTFM 圍繞三個核心設計原則展開 。
首先是效率——這款模型能夠在單張 H100 GPU 上以交互式幀率運行推理 。 在生成式人工智能領域 , 算力消耗一直是制約技術落地的瓶頸 。 若要實現四千分辨率、每秒六十幀的交互式視頻流 , 傳統視頻架構需要每秒生成超過十萬個 token , 這相當于每秒輸出一本《弗蘭肯斯坦》或《哈利·波特》第一部的文本量 。 要讓這樣的生成持續一小時以上 , 系統需要處理超過一億個 token 的上下文 。 這在當前的計算基礎設施下既不可行 , 也不經濟 。 李飛飛團隊信奉所謂的“苦澀教訓”(The Bitter Lesson):那些能夠優雅地隨計算資源擴展的簡單方法 , 往往會在 AI 發展中勝出 , 因為它們能夠受益于計算成本的指數級下降 。
RTFM 的設計哲學正是建立在這一信念之上 。 他們在技術路線上做出了大膽的取舍 , 從任務設定到模型架構 , 再到推理堆棧的每個環節 , 都進行了精心優化 。 團隊運用了最新的架構設計、模型蒸餾和推理優化技術 , 試圖在今天的硬件上 , 提前展現未來模型的能力 。
【單張顯卡實時生成3D世界,李飛飛World Labs推出全新世界模型RTFM】
其次是可擴展性 。 RTFM 的架構設計從一開始就考慮到了隨數據和算力增長而擴展的能力 。 不同于傳統三維圖形管線依賴顯式三維表示——如三角網格或高斯斑點——的做法 , RTFM 走了一條截然不同的路徑 。 它建立在生成式視頻建模的最新進展之上 , 訓練一個單一的神經網絡 , 輸入一張或多張場景的二維圖像 , 然后生成從新視角觀察該場景的二維圖像 , 整個過程無需構建任何顯式的三維表示 。
從技術架構上看 , RTFM 是一個自回歸擴散 Transformer(Diffusion Transformer) , 它在序列幀上進行操作 , 通過大規模視頻數據的端到端訓練 , 能夠基于之前的幀預測下一幀 。 這里可以將 RTFM 理解為一種“習得的渲染器”(Learned Renderer) 。 輸入的幀被轉換成神經網絡激活——也就是鍵值緩存(Key-Value Cache , KV Cache) , 這種緩存隱式地表征了世界 。 在生成新幀時 , 網絡通過注意力機制讀取這種表征 , 創造出與輸入視角一致的新視角 。 將輸入視角轉換為世界表征、再從這些表征渲染新幀的機制 , 全部是從數據中端到端學習而來 , 而非人工設計 。
因此 , RTFM 能夠學會模擬復雜的光影效果——反射、陰影、光澤表面、鏡頭眩光——只需要在訓練過程中觀察這些現象即可 。 團隊展示的案例中 , 賽博朋克風格的潛艇廚房、玻璃結構、電視屏幕中的復雜反射 , 都由模型自然生成 , 效果相當不錯 。
與此同時 , RTFM 模糊了“重建”和“生成”之間的界限 , 這兩者在計算機視覺領域歷來被當作不同問題處理 。 當輸入視角較多時 , 模型傾向于執行重建任務 , 因為約束條件更強;當輸入視角較少時 , 模型則被迫進行外推 , 創造輸入中不可見的內容 。 這種連續性讓 RTFM 既能處理真實世界場景的渲染——團隊展示了從短視頻重建現實場景的案例——也能從單張圖片生成想象中的三維世界 。 結合 World Labs 此前發布的 Marble 技術 , 用戶可以從一張圖片出發 , 探索完整的三維環境 。
第三個原則是持久性 。 真實世界有一個關鍵屬性——當你轉過身去 , 世界并不會消失或徹底改變 , 你總能回到之前訪問過的地方 , 無論離開多久 。 但這對于自回歸幀模型來說一直是個挑戰 。 由于世界僅通過二維圖像幀隱式表征 , 持久性要求模型在用戶探索世界時 , 需要對不斷增長的幀集合進行推理 。 這導致每生成一幀都比前一幀更加昂貴 , 模型對世界的記憶實際上受限于計算預算 。
RTFM 用一種巧妙的方法繞過了這個問題 , 它為每一幀賦予了三維空間中的“位姿”——即位置和方向 。 生成新幀時 , 系統會以待生成幀的位姿作為查詢條件 。 這樣一來 , 模型對世界的記憶 , 也就是它所記錄的幀 , 就具有了空間結構 。 這些帶位姿的幀構成了一種空間記憶 。 這賦予了模型一個弱先驗——它所建模的世界是一個三維歐幾里得空間——而無需強制它去顯式預測該世界中物體的三維幾何形狀 。
在生成新幀時 , RTFM 會從空間記憶中檢索附近的幀 , 為模型形成定制化的“上下文” 。 團隊將這種技術稱為“上下文切換”(context juggling)——模型在空間的不同區域生成圖像時 , 使用不同的上下文幀 。 這使得 RTFM 能夠在長時間交互中維持大型世界 , 而無需對不斷增長的幀集合進行推理 。 演示視頻中 , 用戶可以在一個帶有光澤反射的大堂中自由移動 , 幾何細節在整個場景中保持一致 , 即便離開又返回也不會出現崩塌 。
World Labs 在博客中表示 , RTFM 目前還只是個開始 。 團隊接下來想增強對動態世界的建模 , 讓用戶能真正與生成的世界產生交互 。 現在的版本針對單張 H100 顯卡做了優化 , 但他們預期更大的模型、更多的算力投入 , 會持續帶來性能提升 。
有興趣的用戶現在可以訪問 World Labs 官網 , 在瀏覽器中體驗 RTFM 的演示版本 。
參考資料:
1.https://www.worldlabs.ai/blog/rtfm
運營/排版:何晨龍
推薦閱讀
- 別只盯著Sora,中國AI視頻的實時交互已悄悄領先
- 全球首款桌面雷電5顯卡塢!集成顯示屏、還裝進無線充電:價格超2200元
- AMD顯卡難得用16針供電接口:結果連燒兩塊!
- 純白、看不到一根線!背插顯卡就是漂亮
- 誰能被稱為本代最具性價比的甜品顯卡?
- 微星首款背插顯卡發布:純白、看不到一根線
- AMD官宣下代GPU顯卡三大關鍵特性!光追、超分更強
- AMD新款顯卡現身:中國特供D中D縮水版本!
- 居然單插槽!Intel雙GPU 48GB顯卡上水冷 四卡輕松192GB
- 魔鏡魔鏡告訴我:誰是世界上最美麗的顯卡
