騰訊加速造“世界”數據倉庫

文章圖片

文章圖片

“如果沒有開源，沒有去和社區交流，我們靠閉門造車是空想不出來的。 ”近日，在接受字母榜獨家專訪時，騰訊混元3D團隊負責人郭春超這樣說道。
郭春超的感慨來自于在近期的開源社區中，國產模型“攪動”了整個大模型業界的開源生態，Hugging Face的模型熱度榜單被中國企業連續“霸榜” 。最多時，前10開源席位中有9個來自中國。在排名前幾的選手中，除了 “Text Generation”（文本生成）、“Text to Image”（文生圖）等常見模態外，一款并不常見的“Image to 3D”（圖生3D）模型擠入前三名，榜單中顯示其為騰訊開發的“混元3D世界模型1.0” 。
“混元3D世界模型1.0”是騰訊混元3D系列的最新成果，在不久前結束的WAIC（世界人工智能大會）上發布并全面開源。在產品演示中，該模型可以用一句話、一張圖生成一個可漫游、可編輯的3D世界。盡管有分析顯示，該模型能力還在早期階段，但其技術論文迅速登頂了Hugging Face的論文熱度榜單。
近年來，騰訊在大模型領域版圖不斷擴展，但在傳統的語言模型板塊，騰訊旗下元寶等C端產品，就陷入了行業內同類產品的高強度“內卷” 。而在有些“冷門”的3D模型領域，騰訊卻迅速在國內較早形成產品規模化。這背后的驅動力，似乎來自那些騰訊最賺錢的業務。
“騰訊在游戲、影視、動漫等業務都會用到3D建模，為混元3D模型的發展提供了需求場景。 ”據郭春超介紹，已經有數十個游戲的項目組在使用混元3D的模型能力。一位騰訊方面人士向字母榜表示，這其中就包括《元夢之星》等主力產品。
據騰訊方面人士介紹，自2024年11月發布并開源首代3D生成模型以來，混元3D系列持續迭代。今年4月，混元3D系列迭代至2.5版本，在建模精細度上大幅提升，有效面片數增加超10倍。同時，騰訊還發布了面向創作者的3D AI創作引擎，以滿足游戲開發、動畫影視及3D打印等領域的專業需求。相關數據顯示，混元3D模型系列在Hugging Face平臺下載量已超過230萬。

“越來越多的游戲開發者、3D打印企業及專業設計師采用混元3D模型來生成數字資產。 ”在剛剛發布的騰訊Q2財報中，提到混元3D系列受到業內認可的現狀，對于模型的技術水平，財報中的描述為“領先行業的幾何精度、紋理真實度、指令與3D對齊能力。 ”
另一方面， “3D世界模型”是3D生成大模型中的新銳領域，直到去年才在業內嶄露頭角。去年年底， “AI教母”李飛飛創業公司World Labs展示了一圖生成3D世界的AI系統，隨后，谷歌DeepMind也發布了可通過單張圖片或文字描述，生成3D場景的大型基礎世界模型Genie 2 ，并于上周更新至Genie 3 。
Genie 3能以每秒 24 幀的速度實時導航，并以 720P分辨率保持幾分鐘的一致性。不過，和混元3D世界的技術路線不同， Genie 3更側重于打造一個動態、多幀一致的交互式模擬世界，可以逐幀生成一個實時交互3d場景，但并不具備像混元3D世界那樣導出mesh場景的能力。
事實上， “世界模型”并不是一個新鮮概念，早在上世紀90年代開始，就已在機器人導航工具領域應用。而進入大模型時代后，由人工智能驅動的世界模型，已經逐漸在包括具身智能、AR/VR、游戲影視開發等領域內，發揮基建性的作用。
“它既可以復刻一個虛擬的世界，去創造一個虛擬社交/游戲的場景，也可以創造一個模擬真實場景、比如展覽會等復制現實的形態。 ”談及3D世界模型給未來提供的想象空間，郭春超提供了他的思考。
為什么騰訊要瞄準3D模型賽道？3D世界模型真的能給游戲/動畫行業帶來產業革命嗎？日前，在深圳的一個炎熱午后，郭春超向字母榜回應了上述問題。
“在這個行業內，只要一中斷，就在業界沒有聲音了。 ”在郭春超看來，想要在新領域站穩腳跟，對新技術的持續跟進和投入。這樣的觀點在業內并不缺少案例，Meta早在去年就發布了Meta 3D Gen ，一度處于業內領先的水平。但隨后Meta并未持續在3D生成領域發力，更新節奏一度中斷，直到今年5月才推出Meta 3D Gen2.0 。
“一個模型團隊需要持續交付出好的東西，如果有一個階段沒有交付出來，后面可能就要還‘技術債’ 。 ” 總結混元3D團隊的發展歷程，郭春超這樣說道。
｜對話｜
3D大模型，正在前半程奔跑
字母榜：和其他類型的大模型不同， 3D生成模型是大眾用戶感知相對較弱的領域。作為資深從業者，你能簡單總結一下目前3D生成所處的階段嗎？
【騰訊加速造“世界”】郭春超：3D模型是一個發展相對較新、較晚的領域，大約在2024年業界才開始加大投入、今年才看到商業拐點并爆發。相比之下， LLM（大語言模型）從2022年就出現了比較成熟的產品，比如GPT3.5的出現。現在所處的階段，可以類比在LLM中， GPT2-GPT3之間并接近GPT3的一個狀態。
字母榜：你是說， 3D生成模型還在一個比較早期的階段？
郭春超：是的。現在屬于是前半段賽程，在3D資產生成領域，希望到年底能做到類比LLM中GPT3.5的水平。
字母榜：在3D模型領域，騰訊是國內走得比較快、做得也比較多的一家企業，而其他國內頭部企業似乎沒有將3D模型作為主要方向。為什么騰訊會瞄準3D模型賽道，這背后有怎樣的戰略考量？是否有來自公司內部的場景或需求，在驅動你們做這個事情？
郭春超：我們主要圍繞兩個大方向進行布局。一個是業界的技術發展趨勢，另一個是我們騰訊的業務需求。在技術發展趨勢上，過去一年中，業內3D模態的發展速度非常快。國外企業像Meta、Google都在3D模型領域有重點投入， 3D模態對我們理解三維物理世界必不可少。
從自身業務布局角度而言，騰訊在游戲、影視、動漫等業務都會用到3D建模，為混元3D模型的發展提供了需求場景。至于國內其他的企業，在這方面可能也有布局，但不一定像騰訊投入這么大。
字母榜：有沒有混元3D團隊與上述內部業務合作的具體案例？哪些團隊和混元3D業務的關聯是最緊密的？
郭春超：比如在游戲板塊，我們已經合作了多個團隊，但由于保密原因不能公開。不過，已經有數十個游戲的項目組在使用混元3D的模型能力。
另一方面，我們和騰訊云是內部合作關系，騰訊云會把混元3D的一些能力賦能到外部。比如說設計Agent Lovart ，以及3D 打印品牌拓竹科技、創想三維等。

字母榜：在迭代模型能力的時候，你們會參考內部團隊的意見或需求嗎？
郭春超：這個肯定會的。基本上我們會把很多業務共性的需求匯總起來，作為后續研發方向的指導。
AI“造”世界的抽卡難題
字母榜：今年1月， 3D AI創作引擎2.0上線時，你曾表示：“3D模型生產的視覺合格率，僅用一年時間就從20%提升到60%的水平。 ”而混元3D世界模型的生成場景要更復雜，目前該模型生成質量符合你的預期嗎？
郭春超：世界模型目前還處于早期階段，可能比混元3D 1.0當時所處的階段還要再早一點。單個物體生成，模型輸出的就是單個資產，像一個人、一張桌子子，可約束的條件相對較多。
但世界模型是一整個開放3D世界的生成，有真實的、有虛擬的；有自然的、也有室內的。所以它的生成難度較高，涉及空間穩定性、物理規律等影響因素也更多，因此它的發展可能需要更長時間。
字母榜：如果要量化混元3D世界模型的合格率，你認為能達到多少？
郭春超：不同的任務不一樣。如果是簡單的一個展廳，只是進入這個場景瀏覽一下，目前能做到30%-40%的合格率。如果有更高品質的要求，比如說在自動駕駛場景，或者高品質游戲的搭建，那以目前的模型能力，可能連10%的合格率都做不到。
字母榜：說起合格率的問題，背后其實有一個可控性的因素。相比物體3D模型， 3D世界模型的生成任務更復雜，對可控性要求是否會更高？
郭春超：關于可控性問題，本質上是模型能力能不能穩定激發出來。很多時候大模型在使用中需要“抽卡”（多次生成），通過強化學習等手段，我們希望把“抽卡”的能力穩定下來，大幅提高了可控性。
而對于3D世界模型而言，提高生成的穩定性是更復雜的工程，我們需要從數據端、模型架構、預訓練策略、后訓方法（包括SFT、強化訓練等環節），系統性的都“加固”一遍，最終才能逐步提升。
此外，在產品層面，我們后續也會逐漸降低用戶使用門檻，比如說幫助用戶去做更多的prompt改寫，亦或者提供更多模態的輸入，例如“文+圖”或“文+多張圖” ，使其可控性能更契合用戶的想法。
字母榜：在今年早些時候，騰訊的游戲制作人王智剛老師曾表示，面數控制能力對游戲研發來說是至關重要的，某些游戲項目需要的3D模型可能只有幾千面，但一些大模型上來就是幾萬面。而相比3D物體生成， 3D世界生成的復雜性會更高，針對這一問題你們是否有進展？
郭春超：針對如何控制3D世界模型的生成文件大小，我們一直在優化。最開始使用了3D高斯潑濺技術，但那會導致文件很大，后面我們將其轉成了面片的形式，壓縮了幾十倍的大小。
未來，相信隨著業界基建的發展，更好的渲染方式、更好的引擎出現，以及伴隨著模型層面的迭代，以及伴隨著模型層面的迭代，能把這個問題更好地解決。
字母榜：目前，網頁版的混元3D世界模型包含兩種生成模式，前一種是基于文本/圖像，生成一個全景圖式的Skybox ，后一種則是基于全景圖去生成3D世界。不過，目前在網頁端，即使生成了一個3D網格世界，能夠探索的范圍也很小，為什么要做這樣的限制？
郭春超：這是因為在純3D的場景里面，如果想要大范圍探索，會涉及到很多參數的設置，比如說哪里該有空氣墻，哪里能進去，還是需要有專業人士進行進一步的調整。
目前，無論是創作3D單體還是3D場景，要打包到引擎當中去開發成一款游戲，還是有一定的專業性。在3D世界模型的1.0階段，我們更多的是幫助創作者，去降低制作這些場景資產的門檻，但是還不能100%替代人工。
下一代3D模型：交互性+真實性
字母榜：行業也有類似的產品，宣稱可以實時生成游戲世界。這是某個海外團隊的產品demo ，和混元3D世界模型對比的話，你認為這兩個產品的技術路線有什么差異？
郭春超：看了一下演示，他們可能采用的是視頻生成的模式，本質上是預測畫面的下一幀。演示中的人物形象是一直往前走的，如果走了一會再回頭，會發現后面的山或者其他素材會消失。事實上，因為視頻生成數據量非常大，目前視頻生成技術還不能徹底進入游戲的管線。
字母榜：不過實時生成游戲世界的理念，最近在業內熱度還蠻高，混元下一步會有這種想法嗎？
郭春超：下一步，我們探索會結合3D和2D場景下的幾種模態，推出一個World Play的交互模型，預計在今年下半年推出。這個版本有望既解決了2D穩定性的不足，又解決了3D生成多樣性的不足，把兩者的優點結合起來。

圖注：混元世界模型1.0應用概覽圖
字母榜：此前你曾表示， 3D生成模型的發展還面臨一些挑戰。其中之一是數據的不足，在3D模型領域只有千萬量級的數據，并且沒有被充分的利用。目前你們在數據利用層面是否有新的進展？
郭春超：是的。我們目前用了大量的圖和視頻的場景，用來緩解了3D素材產能不足。尤其是大量的視頻場景，可以轉化為3D信息，進而指導我們去做三維世界的生成。而且最終生成的3D世界，既可以以3D的形式保存，也可以渲染成視頻，得到一個視頻或某一幀圖像。
當然，在純3D文件領域，我們基于很多游戲資產等內容，半自動化搭建了很多3D場景。所以，在混元3D場景（世界）訓練中，既用到了圖像、視頻，也用到了很多原生3D場景。相比此前的3D物體模型，在數據的豐富度有了較大提升。
字母榜：我們也留意到了前段時間發布的“混元游戲視覺的生成平臺” 。混元3D系列該平臺上也扮演了比較重要的角色，這是混元3D業務在應用層面規劃的一部分嗎？
郭春超：那個游戲平臺更多的是我們針對游戲行業做的第一步的解決方案，它會持續迭代，后面我們也會有更多的游戲相關的功能加入到里面，形成一個更完整的游戲Paas（平臺及服務）解決方案。
我們會把游戲管線里面達標的、能夠符合工業化生產標準的能力，集成到游戲平臺里面去。但如果是還處于前期探索階段的能力，我們會先研發一段時間，達到工業化水準時再搬進去。
字母榜：按照你之前的評價，混元3D世界模型似乎是你說的后者，離工業化還有些距離。
郭春超：距離游戲管線是這樣，還需要一段時間。如果只是用在一些VR的觀看場景，可能已經部分可用了。
字母榜：混元3D世界模型2.0的一些優化方向，能不能透露一下？
郭春超：我們的2.0會在真實世界場景呈現上進行比較大的投入。因為目前的1.0更多聚焦在虛擬世界生成上，但是現實中也有很多應用場景是需要真實感的，比如做一個線上的展覽會，想讓人有身臨其境的感覺，那就需要提升模型搭建真實場景的能力。
字母榜：近期WAIC上騰訊也同步了一些具身智能的進展，其中有提到“多模態感知”這個板塊，這一部分會有混元3D能力的介入嗎。
郭春超：新推出的混元3D世界模型暫時沒有在具身智能里面應用，但是我希望后面能提供3D的場景或者是世界生成的能力，包括剛剛提到的世界模型2.0 ，能夠更多地去賦能具身智能場景。
開源擁抱未來，思考星辰大海
字母榜：回顧過去9個月，混元3D系列陸續發布并開源了多款模型，此前還更新了一個面向專業設計領域的Hunyuan3D-PolyGen 。在規劃這些細分模型場景，或者說模型產品矩陣時，你們考慮的因素有哪些？
郭春超：我們就主要考慮的是兩個大的方向。第一個大的方向，是怎么做好當下。第二個大的方向，是怎么根據技術發展去拓展未來。
像我們現在做的3D資產的生成，更多的是服務于當下的業務需求。而著眼于未來，像近期推出的混元3D世界模型，可能短期內無法帶來天翻地覆的變化，但隨著技術的完善和成熟，未來它一定能“革命”掉很多東西。從創作方式到工業流程生產的方式，都是可能被“革命”掉的，我們發布開源就是圍繞這兩個思路來做的。
字母榜：3D世界模型1.0 ，目前看起來還是有點投石問路的意思。
郭春超：目前還處于比較早期，它會在部分場景，在VR或者是一些大家做原型場景的驗證有用。但是很多事情是需要大家先把這個生態給做起來，讓開源社區活躍起來，才會有更多研究者進入到這個領域里面。
字母榜：說到開源，混元3D系列模型的在Hugging Face的下載量突破了230萬。您怎么理解開源社區中，廣大開發者給你們的反?。 ?
郭春超：我們開發團隊和社區是一個雙向奔赴、互幫互助的狀態，社區里的開發者能夠基于我們發布的技術成果進行改進，降低他們的研發門檻。比如說一個開發者是研究世界模型領域的，或者是做自動駕駛領域的人，就能比較輕松把這個用起來。
如果沒有開源，沒有去和社區交流，我們靠閉門造車是空想不出來的。他們也給了我們非常多的信息輸入，因此我覺得開源社區是一個雙向共贏的事情。
字母榜：所以其實大家都非常渴望擁抱新業態，哪怕面對的是一個還不夠成熟的產品。
郭春超：是的，如果一個事情已經到了商業化的拐點……
字母榜：那就該閉源了？
郭春超：（笑）這個問題我就不多做評論，但是如果到了100%商業化拐點，可能業界研究的人就比較少了。舉個例子，就像手機的人臉識別已經非常成熟，可用率也很高，再做這個算法研發ROI就十分有限。所以整個大模型界研究這個領域的人就比較少了，研究者的熱情更多是探索AGI怎么實現，思考一些星辰大海的領域。
字母榜：回顧過去9個月，雖然時間不長，但不管是在模型數量還是生成質量上，混元3D系列迭代得非常快，這背后的原因是什么？
郭春超：核心是做大模型三要素：算力、數據、人才，我們在這三個方面都相對做的比較好。同時依托混元大模型這個平臺，包括公司層面上也給了混元特別大的支持。把三要素湊齊，是我認為能做成的第一個原因。
第二個原因是團隊組織形式，我們團隊非常年輕且國際化，團隊博士比例大約占2/3 ，基本上都來自于海內外名校。此外，我們團隊一直堅持工業化的打法，在團隊組織和運作上都是保持非常“卷”的狀態。我認為以上兩個方面是能夠讓這個模型技術快速迭代的最大原因。

騰訊加速造“世界”

推薦閱讀

轉入+轉出西安公積金轉移指南匯總

山行古詩翻譯及賞析山行原文翻譯及賞析

手機出廠時會有劃痕嗎

南方的冬天如何取暖

縮陰產品真的可以變緊致嗎？3個推薦一用就緊！

天津狗不理包子怎么做天津狗不理包子的做法

win7電腦windows安全警報如何關閉關閉安全報警方法說明

阿飛西蘭花炒蝦仁家常做法?

高速堵車核酸過期了怎么辦-高速堵車核酸檢測可以延時嗎

心前區疼痛最常見的原因是心前區疼痛最常見的原因是什么

iOS11和安卓7哪個好,安卓和ios哪個好

靨組詞靨的組詞靨字怎么組詞

貓咪流淚怎么了,導致貓咪流淚的原因有很多

你們的輸入法都會震動嗎？

在班會上可以做一些什么小游戲

5升是多少斤