世界模型可單GPU秒級生成？騰訊開源FlashWorld，效果驚艷_云服務|中國電信|互聯網數據

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

廈門大學和騰訊合作的最新論文《FlashWorld: High-quality 3D Scene Generation within Seconds》獲得了海內外的廣泛關注，在當日 Huggingface Daily Paper 榜單位列第一，并在 X 上獲得 AK、Midjourney 創始人、SuperSplat 創始人等 AI 大佬點贊轉發。

FlashWorld 不僅將三維場景的生成在單卡上做到了 5～10 秒（相比之前方法提速百倍），更統一支持了單張圖片或文本輸入，生成的場景可以在網頁用戶端實時渲染，同時質量還勝過其他同類閉源模型。

主頁：https://github.com/imlixinyang/FlashWorld-Project-Page Github：https://github.com/imlixinyang/FlashWorld Huggingface Demo：https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark 論文：https://arxiv.org/pdf/2510.13678目前，作者們還提供了 Huggingface 上的免費 Demo 可以試玩。我們迫不及待地進行了嘗試，并且在同一個輸入下與 WorldLabs 的 Marble 和前兩天發布的 RTFM 模型比較了一下：

從上至下：FlashWorld ， Marble ， RTFM
可以看到 FlashWorld 在預設軌跡下可以產生非常穩定、完整且高質量的渲染結果，生成速度比 Marble 的快速模式快 5 倍，而且完全通過前端渲染，不需要像 RTFM 一樣需要等待連接后端 GPU 才能使用。
這是怎么做到的呢？
FlashWorld 動機
雖然現在視頻模型成為了世界模型的主流，但其負載大的特點難以讓每個人都能在自己的設備上進行體驗。因此， FlashWorld 選擇了基于 3DGS 為場景輸出形式的技術路線，這也是為什么 FlashWorld 生成的結果可以在本地網頁端實時渲染。
在傳統生成 3DGS 場景的方法中，大約分為了兩類：
一種是以多視角為中心的方案，代表方法為 CAT3D ， Wonderland 等。它們使用了先通過擴散模型生成多視角圖像或視頻，再通過三維重建得到 3DGS 的兩步框架。然而，因為使用的擴散模型往往會生成視角不一致的結果，這類方案容易產生雜亂的紋理細節。
另一種則為以三維為中心的方案，代表方法為 Director3D ， DiffusionGS 等。它們把 3DGS 作為中介，直接用于多視角的去噪流程中。但因為場景數據相機標注往往不夠準確以及模型知識不夠強的問題，這類方案容易產生模糊的渲染效果。
FlashWorld 的核心，簡而言之，就是用把以多視角為中心的教師模型通過蒸餾損失提升以三維為中心的學生模型的視覺質量，這樣既保證了理論上的多視角一致性，又不斷促使模型接近真實場景的圖像質量，順帶地，還極大減少了去噪步數。

視頻為單圖到三維場景生成效果，從上到下依次為同一個網絡架構在 MV 模式、3D 模式，以及 FlashWorld 提出的跨模式蒸餾結果。
FlashWorld 方法
FlashWorld 包含了兩個訓練流程：
1. 雙模式預訓練：基于視頻擴散先驗，訓練一個同時支持以多視角為中心（MV）/ 以三維為中心（3D）雙模式輸出的多視圖擴散模型。
2. 跨模式后訓練：以 MV 模式為教師、3D 模式為學生，進行分布匹配蒸餾，兼顧高保真與 3D 一致。

FlashWorld 還利用了分布匹配蒸餾不需要 Ground Truth 的特性，將隨機的圖像、文本和軌跡組合成分布外的輸入進行訓練，進一步提升學生模型對各種場景、風格、軌跡的泛化能力。
實驗效果
FlashWorld 在各種任務上進行了充分全面的實驗和對比。包括：
圖生三維場景（最上一行為 FlashWorld 結果）：
FlashWorld 竟然成功地生成出了整齊的柵欄（左上），這在以往的工作中幾乎是不可能的。
文生三維場景（最上一行為 FlashWorld 結果）：
FlashWorld 對于毛發這些細粒度的細節也有著非常好的生成能力，這在密集視角的重建中可能都是非常困難的問題，而 FlashWorld 竟然只需要輸入文本。
Feifei Li 團隊 WorldScore Benchmark（最左列為 FlashWorld 結果）：
可以看到， FlashWorld 對于場景風格、語義和三維性也保持得非常好。
文生三維場景定性指標：
FlashWorld 在該 Benchmark 下以最快的速度領先與其他方法。
WorldScore 定性指標
FlashWorld 在該 Benchmark 下以最快的速度下獲得了最高的平均分。
FlashWorld 還可以在只需要 RGB 監督的情況下自然學到深度信息：

對卡通風格的場景也手到擒來（文內所有圖均為 3DGS 渲染結果）：

快速體驗
FlashWorld 還開源了基于 SparkJS 的交互式 Demo ，并可以在 Huggingface Spaces 上進行免費體驗。
體驗地址：https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark

【世界模型可單GPU秒級生成？騰訊開源FlashWorld，效果驚艷】

世界模型可單GPU秒級生成？騰訊開源FlashWorld，效果驚艷

推薦閱讀

為何冰箱會發出響聲

安徽：生豬平均出場價格每50公斤為692.19元

幾層熟的牛排最好吃

胡羅包子做法

豆漿可以泡燕麥片嗎

婆婆丁怎么做好吃

戴爾hdr顯示器怎么開啟戴爾2022年u系列顯示器新品

七喜快捷功能并非形同虛設

老人喜歡吃什么食品

蘭花的傳說，關于玉蘭花的傳說？

oppo手機如何截屏阿里巴巴貨源平臺

房價抬頭天涯,天津房價再抬頭

狗狗有真菌可以用艾葉給它洗澡嗎

思茅有些什么水庫,這個水庫里暢游

四線城市|東北某四線城市售樓處請來上百名房托買房，全都在玩手機等著盒飯

督導招聘，心理咨詢師請督導大概要多少錢呢還有大概多久見一次呢