剛剛, AI 視頻王者大更新!硬剛 Sora,威爾史密斯吃面更香了

剛剛, AI 視頻王者大更新!硬剛 Sora,威爾史密斯吃面更香了

文章圖片

剛剛, AI 視頻王者大更新!硬剛 Sora,威爾史密斯吃面更香了

文章圖片

剛剛, AI 視頻王者大更新!硬剛 Sora,威爾史密斯吃面更香了

文章圖片

剛剛, AI 視頻王者大更新!硬剛 Sora,威爾史密斯吃面更香了

文章圖片

剛剛, AI 視頻王者大更新!硬剛 Sora,威爾史密斯吃面更香了

文章圖片

剛剛, AI 視頻王者大更新!硬剛 Sora,威爾史密斯吃面更香了

文章圖片

剛剛, AI 視頻王者大更新!硬剛 Sora,威爾史密斯吃面更香了

文章圖片

剛剛, AI 視頻王者大更新!硬剛 Sora,威爾史密斯吃面更香了

OpenAI 前不久剛推出了 Sora 2 視頻生成模型 , 勢頭相當兇猛 , 緊隨其后 , 今天 Google 的 Veo 3.1 也迎來了一次重大升級 。
具體來看 , Google 這次的升級包括兩個層面 。
一是功能層面的完善 。 視頻編輯功能得到了強化 , 用戶現在可以對片段進行更細致的調整 , 對最終畫面有了更精準的掌控 。
更重要的是 , Google 首次給「素材轉視頻(Ingredients to Video)」「幀轉視頻(Frames to Video)」和「延展(Extend)」這些功能配上了音頻 , 讓音頻成為創作流程的一部分 。
二是模型層面的進步 。
今天發布的 Veo 3.1 在提示詞理解和視聽質量兩個關鍵指標上都有了明顯提升 , 從圖像到視頻的轉化因此更加自然流暢 。
相關閱讀
AI 視頻新王全球爆火 , 威爾·斯密斯終于可以好好吃面(附大量實測演示)
眾所周知 , Veo 3 原本就有不少編輯能力在身——通過參考圖像指導角色生成、用首尾兩幀填充中間內容、基于視頻末尾繼續延展等操作都可以做 。
Veo 3.1 的做法是在這些既有功能上全部加入音頻支持 , 讓用戶能夠打造更加完整的場景 。 這些功能目前還處于實驗階段 , Google 表示會根據用戶反饋繼續優化迭代 。
現在用戶可以這樣使用這些功能:
1、用多張參考圖像定義角色、物體和風格 , 「素材轉視頻」功能就會根據這些素材生成最終場景 。
2、或者提供起始和結束畫面 , 讓「幀轉視頻」功能在中間生成無縫過渡 , 這對需要藝術性轉場的項目特別有用 。
3、如果要生成更長的視頻 , 「延展」功能可以生成超過一分鐘的內容 , 基于前一段繼續生成 , 保持故事的連貫性 。
值得一提的是 , Veo 3 的文本轉視頻此前只支持 720p 橫屏輸出 , 但隨著豎屏視頻成為互聯網內容的主流格式 , Veo 3.1 現在也可同時生成橫屏和豎屏的 16:9 視頻 , 更符合當前的內容消費習慣 。創意的打磨往往需要反復迭代 。
自 Flow 于今年 5 月推出以來 , 用戶已經在該應用中創作了超過 2.75 億個視頻 。 吸取用戶的反饋之后 , Flow 中新增的兩個編輯功能就是為此而生——
「插入新元素」讓用戶可以隨時添加內容 , Flow 會自動處理陰影和光線 , 使新增部分自然融入原有畫面;
「移除對象」功能(即將上線)則可以刪除不需要的元素 , Flow 自動重建背景保持一致性 。 這兩個工具的組合能夠讓視頻的編輯過程變得更加靈活 。
目前 Veo 3.1 模型已經上線 , 開發者可以通過 Gemini API 使用 , 企業用戶可在 Vertex AI 中訪問 , 普通用戶也可以在 Gemini 應用內體驗 。 新功能也同步在 Gemini API 和 Vertex AI 中開放 。
我們體驗生成了 3 個 Veo 最實用的應用場景 。
前些時間爆火的第一視角穿越、ASMR 切水果 , 金屬、兔子蹦床的夜視監控等視頻 , 都是使用 Veo 3 生成的 。
由 Veo 3 生成 , 提示詞:50mm camera close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board. The inside of the fruit is glass as well with a little bit of melting glitter. The entire scene is soft lit from the above.
比如這個生成玻璃檸檬的例子 。 提示詞要求「用黃色玻璃制成的檸檬被水平切開 , 內部也是玻璃材質 , 里面有融化的閃粉 , 頂部柔和照亮」 。
Veo 3 的輸出是可用的 , 但 Veo 3.1 對「融化閃粉」的細節刻畫更精準 。
電商場景下 , 我們直接讓他生成一段產品的廣告 。 要知道 , 一般的 TVC(電視商業廣告)也就是在 15s/30s 的時間左右來傳遞品牌信息 。
由 Sora 2 生成 , 提示詞:根據以下商品信息 , 生成一段電商廣告視頻 , 包含實拍感的產品展示、3D旋轉細節、使用場景對比 , 以及配套字幕 。 智能手表 X2 , 續航7天 , ¥1299 智能手表 , 50米防水 , 健康監測(心電、睡眠)
Sora 2 貼心地用中文語音解說了商品信息 , 體現了更好的理解 。 但 Veo 3.1 這邊只是簡單地配了音樂 , 不如 Sora 2 周到 , 但從畫面質量來看 , Veo 3.1 的視覺呈現更高級、更有商業感 。
由 Veo 3.1 生成
我們也試了動漫生成 , 這次 Veo 3.1 的表現就比較一般了 。
由 Sora 2 生成 , 提示詞:以吉卜力工作室動畫風格 , 一個男孩和他的狗跑上一座長滿青草的風景秀麗的山丘 , 背景遠處可以看到一個村莊 , 天空中飄著美麗的云朵
顯然 Veo 3.1 在這塊的訓練數據還不夠豐富 , 距離吉卜力工作室那種精致的動畫風格還是有不少差距 。 莫名消失的狗 , 都是 AI 穿幫的典型特征 。
由 Veo 3.1 生成
X 網友 @aisearchio 分享的威爾·史密斯吃面測試 Demo 整體質感往上抬了一個檔次 , 動作流暢度、光影細節都明顯改善 , 表情豐富但也沒有崩掉 。
綜合來看 , Veo 3.1 在照片級、商業級的內容生成上已經足夠可用 , 細節理解能力也有明顯進步 。 但在特定風格的精準還原上——比如動漫、插畫這類需要高度風格約束的領域 , 還是有相當的優化空間 。盡管如此 , 從 Veo 3 到 Veo 3.1 , 從 Sora 到 Sora 2 , 視頻生成模型的迭代速度已經超過了大多數人的想象 。
伴隨著這類 AI 視頻生成工具會從專業工具逐漸演變為大眾應用 , 屆時 , 你的朋友圈、短視頻平臺、甚至新聞源中 , 每一條內容都有可能是 AI 生成的 。
這也意味未來你看到的每一條內容 , 都需要多一步確認——這來自真實拍攝 , 還是 AI 生成 。
作者:莫崇宇
文章內視頻鏈接:https://mp.weixin.qq.com/s/qBOkoWaGF5k7oPCR_H5aqA
#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr) , 更多精彩內容第一時間為您奉上 。
【剛剛, AI 視頻王者大更新!硬剛 Sora,威爾史密斯吃面更香了】愛范兒|原文鏈接· ·新浪微博

    推薦閱讀