谷歌深夜放出「創世引擎」Genie 3，一句話秒生宇宙，終極模擬器覺醒_ai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

全球最強「世界AI模擬器」今夜誕生！
剛剛，谷歌DeepMind祭出新一代通用世界模型——Genie 3 ，能模擬出史無前例的豐富交互環境。
一句話， Genie 3即可生成一個動態世界。
令人驚艷的是，它能以每秒20-24幀速度，實時生成720p畫面，還能持續數分鐘一致性。
相比于前代， Genie 3在生成時長方面也得到了史詩級的加強——一口氣能搞定長達數分鐘，且內容連貫的可交互世界。
英偉達Jim Fan高度評價，「這就是游戲引擎2.0時代」！
總有一天， UE5所有復雜功能，都能被一個數據驅動的「注意力權重」吸納。
未來，只需要將手柄指令作為輸入，即可渲染一段時空中的像素畫面。
如今， Genie 3的問世，標志著世界模擬AI邁向了全新高度，加速了人類通向AGI/ASI的終極目標。

AI實時交互模擬，真·矩陣世界一直以來，「世界模型」被業界看作是通往AGI道路上的關鍵基石。
因為，它能讓AI智能體在無限豐富的模擬環境中接受訓練。
十多年來，谷歌DeepMind一直在模擬環境領域引領前沿研究，從訓練AI智能體玩轉即時戰略游戲，到為開放式學習和機器人技術開發模擬環境。
正是在這些研究的推動下，他們開發出了「世界模型」。
它能夠利用其對世界的理解，來模擬世界的方方面面，從而讓AI智能體可以預測環境如何演變，以及自身行為帶來的影響。
去年，谷歌DeepMind首次放出世界模型——Genie 1和Genie 2 ，它們能為AI智能體生成全新的環境。
此外， Veo 2、Veo 3模型相繼迭代，也在不斷突破視頻生成的技術前沿，能夠深刻理解物理世界的規律。
每一款模型，都標志著世界模擬在不同能力維度上的進步。
而Genie 3 ，是谷歌DeepMind首個支持「實時交互」的世界模型。
相較于Genie 2 ，一致性和真實感均有提升。
谷歌DeepMind研究員Ali Eslami驚嘆道， Genie 3絕對是自ChatGPT以來最令人印象深刻的演示。
2016年，他曾研究「神經表示與渲染」隱約看到通往這一目標路徑，但沒想到這一天來得這么快。
Hassabis同樣感慨道，上世紀90年代，當自己設計模擬游戲時，曾夢想有一天實現這一技術。如今，愿望終于達成。
接下來，具體看看Genie 3具備哪些強大能力？
· 模擬物理世界
理解物理世界，是任何一個世界模型必備能力。
Genie 3不僅可以生成水流、光照等自然現象，還能與復雜環境進行交互。
· 模擬自然世界
Genie 3還可以生成充滿生命力的自然系統，不論是錯綜復雜的森林、花草等植物，還是各種生物，都能讓人仿佛置身于真實生態之中。
· 創建動畫奇幻世界
不僅如此， Genie 3的想象力也沒有邊界。
它能創造出奇幻場景，以及富有表現力的動畫角色，比如彩虹橋上的卡通狐貍、森林中的螢火蟲等等。
· 探索地點與歷史場景
更令人想不到的是， Genie 3還能玩穿越。
不論是重現古代文明的輝煌，還是探索不同的地方，它都能帶你跨越時空，體驗景點的獨特魅力。
不得不說， Genie 3的實時交互能力，令人嘆為觀止。
那么，谷歌DeepMind是如何具體實現的呢？

一分鐘視覺記憶， Genie 3涌現了要實現Genie 3的實時交互與長時程一致性，技術團隊攻克了諸多難題。
在自回歸地生成每一幀畫面的過程中，模型必須考慮到隨時間推移而不斷延長的先前軌跡。
舉個栗子，當玩家在一分鐘后重訪某個地點時，模型必須調取一分鐘前的相關信息。
為了實現實時交互，這種計算必須在新用戶輸入抵達時每秒執行多次，以做出即時響應。
此外，要讓AI生成的世界富有沉浸感，就必須在很長的時間跨度內保持物理上的一致性。
然而，自回歸地生成一個環境，通常比一次性生成整個視頻的技術難度更大，因為微小誤差會隨時間累積。
盡管面臨這一挑戰， Genie 3生成的環境仍能在數分鐘內基本保持一致，其視覺記憶最遠可追溯到一分鐘前。
如下圖可見，建筑左側的樹木在交互過程中始終如一，即使時隱時現也保持穩定。
Genie 3的一致性是一種涌現能力。
NeRFs和高斯濺射（Gaussian Splatting）雖然也能實現一致的可導航3D環境，但它們依賴于提供顯式的3D表征。
相比之下， Genie 3 生成的世界則遠為動態和豐富，因為它們是模型根據世界描述和用戶行為逐幀創造出來的。

一句話，一個世界除了導航輸入， Genie 3還支持一種更具表現力的文本交互形式，團隊稱之為「由提示詞驅動的世界事件」。
直白講，一句話生成世界。
不論是改變天氣，還是引入新物體或角色，這種能力大幅提升了沉浸感。
與此同時，它也拓展了反事實（即what if）場景的廣度，可供 AI 智能體在經驗學習中用于處理各種意外情況。
比如，在北美大草原上，你可以讓Genie 3即時生成一輛綠色拖拉機、一位騎馬的人；在滑雪場景中，生成一個衣服上印有「Genie 3」的人，或是一個香蕉滑翔?。輝諑錐亟志爸?，還可以空降Dragon 。

智能體「試煉場」為了驗證Genie 3所創世界，對未來AI智能體訓練的兼容性，團隊為新版SIMA智能體生成了多個世界。
在每個世界中，都指示該智能體去達成一系列特定目標。
它會通過向Genie 3發送導航指令，來嘗試完成任務。假設讓它走向和面機和面包架， Genie 3都能指示智能體去完成目標。
與所有其他環境一樣， Genie 3并不知道智能體的目標，它只是根據智能體的行為來模擬世界的未來走向。
由于Genie 3能夠保持一致性的能力，現在可以執行更長的動作序列，以實現更復雜的目標。

局限性盡管Genie 3拓展了世界模型的能力邊界，但也存在一定的局限性，具體包含以下5點：
有限的動作空間
雖然由「提示詞驅動的世界事件」允許廣泛的環境干預，但這些干預不一定由AI智能體自身執行。 AI智能體目前能直接執行的動作范圍仍然有限。
與其他智能體的交互和模擬
在共享環境中精確模擬多個獨立智能體之間的復雜互動，仍是研究領域的一大挑戰。
真實世界位置的準確表征
Genie 3 目前還無法以完美的地理精度模擬真實世界的地點。
文本渲染
通常只有在輸入的世界描述中提供了文本信息時，模型才能生成清晰易讀的文字。
有限的交互時長
模型目前可支持數分鐘的連續交互，而非長達數小時的持續互動。

世界模型，分水嶺已至盡管如此， Genie 3是世界模型發展的一個重要里程碑。
它能為教育和培訓創造新機遇，幫助學生學習、助力專家積累經驗。
它不僅能為機器人和自主系統等 AI 智能體提供廣闊的訓練空間，還能用于評估智能體的性能并探究其弱點。
在邁向AGI征途中， Genie 3描繪了一個由AI加持，充滿交互與創意的世界，一個世界模型全新的未來。
再次狙擊Genie 3之后， OpenAI團隊Steven Heidel獻上彩虹屁，「真是一個見證AGI時刻」。
神仙打架的好戲，正式開演。
參考資料：
【谷歌深夜放出「創世引擎」Genie 3，一句話秒生宇宙，終極模擬器覺醒】https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

谷歌深夜放出「創世引擎」Genie 3，一句話秒生宇宙，終極模擬器覺醒

推薦閱讀

快手購買的東西在哪里查看

小雞一直在張嘴是為什么小雞一直張嘴是啥原因

計算機的主頻指的是用什么表示計算機主頻用什么表示

亞麻席子好嗎

上萬人在直播間里“交學費”，邊帶貨邊上課，網友：不說英語不買

美式咖啡隔夜還能喝嗎

浮萍一道開的開是什么意思浮萍是什么意思

冰糖燉雪梨老鄧全名

日光燈的鎮流器的接法

澎湃新聞是哪里的媒體

新鮮辣椒在保鮮冷庫儲存多久

怎么區分噴氣織物和劍桿織物

狗白內障怎么辦？狗白內障是如何引起的

越俎代庖的意思，越俎代庖的讀音意思

平頂山至信陽高鐵時刻表，請問有無平頂山至信陽下午到的火車

分享怎么在蘇寧易購限時搶購