騰訊加速造“世界”

騰訊加速造“世界”

文章圖片

騰訊加速造“世界”

文章圖片



“如果沒有開源 , 沒有去和社區交流 , 我們靠閉門造車是空想不出來的 。 ”近日 , 在接受字母榜獨家專訪時 , 騰訊混元3D團隊負責人郭春超這樣說道 。
郭春超的感慨來自于在近期的開源社區中 , 國產模型“攪動”了整個大模型業界的開源生態 ,Hugging Face的模型熱度榜單被中國企業連續“霸榜” 。 最多時 , 前10開源席位中有9個來自中國 。 在排名前幾的選手中 , 除了 “Text Generation”(文本生成)、“Text to Image”(文生圖)等常見模態外 , 一款并不常見的“Image to 3D”(圖生3D)模型擠入前三名 , 榜單中顯示其為騰訊開發的“混元3D世界模型1.0” 。
“混元3D世界模型1.0”是騰訊混元3D系列的最新成果 , 在不久前結束的WAIC(世界人工智能大會)上發布并全面開源 。 在產品演示中 , 該模型可以用一句話、一張圖生成一個可漫游、可編輯的3D世界 。 盡管有分析顯示 , 該模型能力還在早期階段 , 但其技術論文迅速登頂了Hugging Face的論文熱度榜單 。
近年來 , 騰訊在大模型領域版圖不斷擴展 , 但在傳統的語言模型板塊 , 騰訊旗下元寶等C端產品 , 就陷入了行業內同類產品的高強度“內卷” 。 而在有些“冷門”的3D模型領域 , 騰訊卻迅速在國內較早形成產品規模化 。 這背后的驅動力 , 似乎來自那些騰訊最賺錢的業務 。
“騰訊在游戲、影視、動漫等業務都會用到3D建模 , 為混元3D模型的發展提供了需求場景 。 ”據郭春超介紹 , 已經有數十個游戲的項目組在使用混元3D的模型能力 。 一位騰訊方面人士向字母榜表示 , 這其中就包括《元夢之星》等主力產品 。
據騰訊方面人士介紹 , 自2024年11月發布并開源首代3D生成模型以來 , 混元3D系列持續迭代 。 今年4月 , 混元3D系列迭代至2.5版本 , 在建模精細度上大幅提升 , 有效面片數增加超10倍 。 同時 , 騰訊還發布了面向創作者的3D AI創作引擎 , 以滿足游戲開發、動畫影視及3D打印等領域的專業需求 。 相關數據顯示 , 混元3D模型系列在Hugging Face平臺下載量已超過230萬 。

“越來越多的游戲開發者、3D打印企業及專業設計師采用混元3D模型來生成數字資產 。 ”在剛剛發布的騰訊Q2財報中 , 提到混元3D系列受到業內認可的現狀 , 對于模型的技術水平 , 財報中的描述為“領先行業的幾何精度、紋理真實度、指令與3D對齊能力 。 ”
另一方面 , “3D世界模型”是3D生成大模型中的新銳領域 , 直到去年才在業內嶄露頭角 。 去年年底 , “AI教母”李飛飛創業公司World Labs展示了一圖生成3D世界的AI系統 , 隨后 , 谷歌DeepMind也發布了可通過單張圖片或文字描述 , 生成3D場景的大型基礎世界模型Genie 2 , 并于上周更新至Genie 3 。
Genie 3能以每秒 24 幀的速度實時導航 , 并以 720P分辨率保持幾分鐘的一致性 。 不過 , 和混元3D世界的技術路線不同 , Genie 3更側重于打造一個動態、多幀一致的交互式模擬世界 , 可以逐幀生成一個實時交互3d場景 , 但并不具備像混元3D世界那樣導出mesh場景的能力 。
事實上 , “世界模型”并不是一個新鮮概念 , 早在上世紀90年代開始 , 就已在機器人導航工具領域應用 。 而進入大模型時代后 , 由人工智能驅動的世界模型 , 已經逐漸在包括具身智能、AR/VR、游戲影視開發等領域內 , 發揮基建性的作用 。
“它既可以復刻一個虛擬的世界 , 去創造一個虛擬社交/游戲的場景 , 也可以創造一個模擬真實場景、比如展覽會等復制現實的形態 。 ”談及3D世界模型給未來提供的想象空間 , 郭春超提供了他的思考 。
為什么騰訊要瞄準3D模型賽道?3D世界模型真的能給游戲/動畫行業帶來產業革命嗎?日前 , 在深圳的一個炎熱午后 , 郭春超向字母榜回應了上述問題 。
“在這個行業內 , 只要一中斷 , 就在業界沒有聲音了 。 ”在郭春超看來 , 想要在新領域站穩腳跟 , 對新技術的持續跟進和投入 。 這樣的觀點在業內并不缺少案例 ,Meta早在去年就發布了Meta 3D Gen , 一度處于業內領先的水平 。 但隨后Meta并未持續在3D生成領域發力 , 更新節奏一度中斷 , 直到今年5月才推出Meta 3D Gen2.0 。
“一個模型團隊需要持續交付出好的東西 , 如果有一個階段沒有交付出來 , 后面可能就要還‘技術債’ 。 ” 總結混元3D團隊的發展歷程 , 郭春超這樣說道 。
|對話|
3D大模型 , 正在前半程奔跑
字母榜:和其他類型的大模型不同 , 3D生成模型是大眾用戶感知相對較弱的領域 。 作為資深從業者 , 你能簡單總結一下目前3D生成所處的階段嗎?
【騰訊加速造“世界”】郭春超:3D模型是一個發展相對較新、較晚的領域 , 大約在2024年業界才開始加大投入、今年才看到商業拐點并爆發 。 相比之下 , LLM(大語言模型)從2022年就出現了比較成熟的產品 , 比如GPT3.5的出現 。 現在所處的階段 , 可以類比在LLM中 , GPT2-GPT3之間并接近GPT3的一個狀態 。
字母榜:你是說 , 3D生成模型還在一個比較早期的階段?
郭春超:是的 。 現在屬于是前半段賽程 , 在3D資產生成領域 , 希望到年底能做到類比LLM中GPT3.5的水平 。
字母榜:在3D模型領域 , 騰訊是國內走得比較快、做得也比較多的一家企業 , 而其他國內頭部企業似乎沒有將3D模型作為主要方向 。 為什么騰訊會瞄準3D模型賽道 , 這背后有怎樣的戰略考量?是否有來自公司內部的場景或需求 , 在驅動你們做這個事情?
郭春超:我們主要圍繞兩個大方向進行布局 。 一個是業界的技術發展趨勢 , 另一個是我們騰訊的業務需求 。 在技術發展趨勢上 , 過去一年中 , 業內3D模態的發展速度非常快 。 國外企業像Meta、Google都在3D模型領域有重點投入 , 3D模態對我們理解三維物理世界必不可少 。
從自身業務布局角度而言 , 騰訊在游戲、影視、動漫等業務都會用到3D建模 , 為混元3D模型的發展提供了需求場景 。 至于國內其他的企業 , 在這方面可能也有布局 , 但不一定像騰訊投入這么大 。
字母榜:有沒有混元3D團隊與上述內部業務合作的具體案例?哪些團隊和混元3D業務的關聯是最緊密的?
郭春超:比如在游戲板塊 , 我們已經合作了多個團隊 , 但由于保密原因不能公開 。 不過 , 已經有數十個游戲的項目組在使用混元3D的模型能力 。
另一方面 , 我們和騰訊云是內部合作關系 , 騰訊云會把混元3D的一些能力賦能到外部 。 比如說設計Agent Lovart , 以及3D 打印品牌拓竹科技、創想三維等 。

字母榜:在迭代模型能力的時候 , 你們會參考內部團隊的意見或需求嗎?
郭春超:這個肯定會的 。 基本上我們會把很多業務共性的需求匯總起來 , 作為后續研發方向的指導 。
AI“造”世界的抽卡難題
字母榜:今年1月 , 3D AI創作引擎2.0上線時 , 你曾表示:“3D模型生產的視覺合格率 , 僅用一年時間就從20%提升到60%的水平 。 ”而混元3D世界模型的生成場景要更復雜 , 目前該模型生成質量符合你的預期嗎?
郭春超:世界模型目前還處于早期階段 , 可能比混元3D 1.0當時所處的階段還要再早一點 。 單個物體生成 , 模型輸出的就是單個資產 , 像一個人、一張桌子子 , 可約束的條件相對較多 。
但世界模型是一整個開放3D世界的生成 , 有真實的、有虛擬的;有自然的、也有室內的 。 所以它的生成難度較高 , 涉及空間穩定性、物理規律等影響因素也更多 , 因此它的發展可能需要更長時間 。
字母榜:如果要量化混元3D世界模型的合格率 , 你認為能達到多少?
郭春超:不同的任務不一樣 。 如果是簡單的一個展廳 , 只是進入這個場景瀏覽一下 , 目前能做到30%-40%的合格率 。 如果有更高品質的要求 , 比如說在自動駕駛場景 , 或者高品質游戲的搭建 , 那以目前的模型能力 , 可能連10%的合格率都做不到 。
字母榜:說起合格率的問題 , 背后其實有一個可控性的因素 。 相比物體3D模型 , 3D世界模型的生成任務更復雜 , 對可控性要求是否會更高?
郭春超:關于可控性問題 , 本質上是模型能力能不能穩定激發出來 。 很多時候大模型在使用中需要“抽卡”(多次生成) , 通過強化學習等手段 , 我們希望把“抽卡”的能力穩定下來 , 大幅提高了可控性 。
而對于3D世界模型而言 , 提高生成的穩定性是更復雜的工程 , 我們需要從數據端、模型架構、預訓練策略、后訓方法(包括SFT、強化訓練等環節) , 系統性的都“加固”一遍 , 最終才能逐步提升 。
此外 , 在產品層面 , 我們后續也會逐漸降低用戶使用門檻 , 比如說幫助用戶去做更多的prompt改寫 , 亦或者提供更多模態的輸入 , 例如“文+圖”或“文+多張圖” , 使其可控性能更契合用戶的想法 。
字母榜:在今年早些時候 , 騰訊的游戲制作人王智剛老師曾表示 , 面數控制能力對游戲研發來說是至關重要的 , 某些游戲項目需要的3D模型可能只有幾千面 , 但一些大模型上來就是幾萬面 。 而相比3D物體生成 , 3D世界生成的復雜性會更高 , 針對這一問題你們是否有進展?
郭春超:針對如何控制3D世界模型的生成文件大小 , 我們一直在優化 。 最開始使用了3D高斯潑濺技術 , 但那會導致文件很大 , 后面我們將其轉成了面片的形式 , 壓縮了幾十倍的大小 。
未來 , 相信隨著業界基建的發展 , 更好的渲染方式、更好的引擎出現 , 以及伴隨著模型層面的迭代 , 以及伴隨著模型層面的迭代 , 能把這個問題更好地解決 。
字母榜:目前 , 網頁版的混元3D世界模型包含兩種生成模式 , 前一種是基于文本/圖像 , 生成一個全景圖式的Skybox , 后一種則是基于全景圖去生成3D世界 。 不過 , 目前在網頁端 , 即使生成了一個3D網格世界 , 能夠探索的范圍也很小 , 為什么要做這樣的限制?
郭春超:這是因為在純3D的場景里面 , 如果想要大范圍探索 , 會涉及到很多參數的設置 , 比如說哪里該有空氣墻 , 哪里能進去 , 還是需要有專業人士進行進一步的調整 。
目前 , 無論是創作3D單體還是3D場景 , 要打包到引擎當中去開發成一款游戲 , 還是有一定的專業性 。 在3D世界模型的1.0階段 , 我們更多的是幫助創作者 , 去降低制作這些場景資產的門檻 , 但是還不能100%替代人工 。
下一代3D模型:交互性+真實性
字母榜:行業也有類似的產品 , 宣稱可以實時生成游戲世界 。 這是某個海外團隊的產品demo , 和混元3D世界模型對比的話 , 你認為這兩個產品的技術路線有什么差異?
郭春超:看了一下演示 , 他們可能采用的是視頻生成的模式 , 本質上是預測畫面的下一幀 。 演示中的人物形象是一直往前走的 , 如果走了一會再回頭 , 會發現后面的山或者其他素材會消失 。 事實上 , 因為視頻生成數據量非常大 , 目前視頻生成技術還不能徹底進入游戲的管線 。
字母榜:不過實時生成游戲世界的理念 , 最近在業內熱度還蠻高 , 混元下一步會有這種想法嗎?
郭春超:下一步 , 我們探索會結合3D和2D場景下的幾種模態 , 推出一個World Play的交互模型 , 預計在今年下半年推出 。 這個版本有望既解決了2D穩定性的不足 , 又解決了3D生成多樣性的不足 , 把兩者的優點結合起來 。

圖注:混元世界模型1.0應用概覽圖
字母榜:此前你曾表示 , 3D生成模型的發展還面臨一些挑戰 。 其中之一是數據的不足 , 在3D模型領域只有千萬量級的數據 , 并且沒有被充分的利用 。 目前你們在數據利用層面是否有新的進展?
郭春超:是的 。 我們目前用了大量的圖和視頻的場景 , 用來緩解了3D素材產能不足 。 尤其是大量的視頻場景 , 可以轉化為3D信息 , 進而指導我們去做三維世界的生成 。 而且最終生成的3D世界 , 既可以以3D的形式保存 , 也可以渲染成視頻 , 得到一個視頻或某一幀圖像 。
當然 , 在純3D文件領域 , 我們基于很多游戲資產等內容 , 半自動化搭建了很多3D場景 。 所以 , 在混元3D場景(世界)訓練中 , 既用到了圖像、視頻 , 也用到了很多原生3D場景 。 相比此前的3D物體模型 , 在數據的豐富度有了較大提升 。
字母榜:我們也留意到了前段時間發布的“混元游戲視覺的生成平臺” 。 混元3D系列該平臺上也扮演了比較重要的角色 , 這是混元3D業務在應用層面規劃的一部分嗎?
郭春超:那個游戲平臺更多的是我們針對游戲行業做的第一步的解決方案 , 它會持續迭代 , 后面我們也會有更多的游戲相關的功能加入到里面 , 形成一個更完整的游戲Paas(平臺及服務)解決方案 。
我們會把游戲管線里面達標的、能夠符合工業化生產標準的能力 , 集成到游戲平臺里面去 。 但如果是還處于前期探索階段的能力 , 我們會先研發一段時間 , 達到工業化水準時再搬進去 。
字母榜:按照你之前的評價 , 混元3D世界模型似乎是你說的后者 , 離工業化還有些距離 。
郭春超:距離游戲管線是這樣 , 還需要一段時間 。 如果只是用在一些VR的觀看場景 , 可能已經部分可用了 。
字母榜:混元3D世界模型2.0的一些優化方向 , 能不能透露一下?
郭春超:我們的2.0會在真實世界場景呈現上進行比較大的投入 。 因為目前的1.0更多聚焦在虛擬世界生成上 , 但是現實中也有很多應用場景是需要真實感的 , 比如做一個線上的展覽會 , 想讓人有身臨其境的感覺 , 那就需要提升模型搭建真實場景的能力 。
字母榜:近期WAIC上騰訊也同步了一些具身智能的進展 , 其中有提到“多模態感知”這個板塊 , 這一部分會有混元3D能力的介入嗎 。
郭春超:新推出的混元3D世界模型暫時沒有在具身智能里面應用 , 但是我希望后面能提供3D的場景或者是世界生成的能力 , 包括剛剛提到的世界模型2.0 , 能夠更多地去賦能具身智能場景 。
開源擁抱未來 , 思考星辰大海
字母榜:回顧過去9個月 , 混元3D系列陸續發布并開源了多款模型 , 此前還更新了一個面向專業設計領域的Hunyuan3D-PolyGen 。 在規劃這些細分模型場景 , 或者說模型產品矩陣時 , 你們考慮的因素有哪些?
郭春超:我們就主要考慮的是兩個大的方向 。 第一個大的方向 , 是怎么做好當下 。 第二個大的方向 , 是怎么根據技術發展去拓展未來 。
像我們現在做的3D資產的生成 , 更多的是服務于當下的業務需求 。 而著眼于未來 , 像近期推出的混元3D世界模型 , 可能短期內無法帶來天翻地覆的變化 , 但隨著技術的完善和成熟 , 未來它一定能“革命”掉很多東西 。 從創作方式到工業流程生產的方式 , 都是可能被“革命”掉的 , 我們發布開源就是圍繞這兩個思路來做的 。
字母榜:3D世界模型1.0 , 目前看起來還是有點投石問路的意思 。
郭春超:目前還處于比較早期 , 它會在部分場景 , 在VR或者是一些大家做原型場景的驗證有用 。 但是很多事情是需要大家先把這個生態給做起來 , 讓開源社區活躍起來 , 才會有更多研究者進入到這個領域里面 。
字母榜:說到開源 , 混元3D系列模型的在Hugging Face的下載量突破了230萬 。 您怎么理解開源社區中 , 廣大開發者給你們的反?。 ?
郭春超:我們開發團隊和社區是一個雙向奔赴、互幫互助的狀態 , 社區里的開發者能夠基于我們發布的技術成果進行改進 , 降低他們的研發門檻 。 比如說一個開發者是研究世界模型領域的 , 或者是做自動駕駛領域的人 , 就能比較輕松把這個用起來 。
如果沒有開源 , 沒有去和社區交流 , 我們靠閉門造車是空想不出來的 。 他們也給了我們非常多的信息輸入 , 因此我覺得開源社區是一個雙向共贏的事情 。
字母榜:所以其實大家都非常渴望擁抱新業態 , 哪怕面對的是一個還不夠成熟的產品 。
郭春超:是的 , 如果一個事情已經到了商業化的拐點……
字母榜:那就該閉源了?
郭春超:(笑)這個問題我就不多做評論 , 但是如果到了100%商業化拐點 , 可能業界研究的人就比較少了 。 舉個例子 , 就像手機的人臉識別已經非常成熟 , 可用率也很高 , 再做這個算法研發ROI就十分有限 。 所以整個大模型界研究這個領域的人就比較少了 , 研究者的熱情更多是探索AGI怎么實現 , 思考一些星辰大海的領域 。
字母榜:回顧過去9個月 , 雖然時間不長 , 但不管是在模型數量還是生成質量上 , 混元3D系列迭代得非常快 , 這背后的原因是什么?
郭春超:核心是做大模型三要素:算力、數據、人才 , 我們在這三個方面都相對做的比較好 。 同時依托混元大模型這個平臺 , 包括公司層面上也給了混元特別大的支持 。 把三要素湊齊 , 是我認為能做成的第一個原因 。
第二個原因是團隊組織形式 , 我們團隊非常年輕且國際化 , 團隊博士比例大約占2/3 , 基本上都來自于海內外名校 。 此外 , 我們團隊一直堅持工業化的打法 , 在團隊組織和運作上都是保持非常“卷”的狀態 。 我認為以上兩個方面是能夠讓這個模型技術快速迭代的最大原因 。

    推薦閱讀