
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

OpenAI 前不久剛推出了 Sora 2 視頻生成模型 , 勢頭相當兇猛 , 緊隨其后 , 今天 Google 的 Veo 3.1 也迎來了一次重大升級 。
具體來看 , Google 這次的升級包括兩個層面 。
一是功能層面的完善 。 視頻編輯功能得到了強化 , 用戶現在可以對片段進行更細致的調整 , 對最終畫面有了更精準的掌控 。
更重要的是 , Google 首次給「素材轉視頻(Ingredients to Video)」「幀轉視頻(Frames to Video)」和「延展(Extend)」這些功能配上了音頻 , 讓音頻成為創作流程的一部分 。
二是模型層面的進步 。
今天發布的 Veo 3.1 在提示詞理解和視聽質量兩個關鍵指標上都有了明顯提升 , 從圖像到視頻的轉化因此更加自然流暢 。
相關閱讀
AI 視頻新王全球爆火 , 威爾·斯密斯終于可以好好吃面(附大量實測演示)
眾所周知 , Veo 3 原本就有不少編輯能力在身——通過參考圖像指導角色生成、用首尾兩幀填充中間內容、基于視頻末尾繼續延展等操作都可以做 。
Veo 3.1 的做法是在這些既有功能上全部加入音頻支持 , 讓用戶能夠打造更加完整的場景 。 這些功能目前還處于實驗階段 , Google 表示會根據用戶反饋繼續優化迭代 。
現在用戶可以這樣使用這些功能:
1、用多張參考圖像定義角色、物體和風格 , 「素材轉視頻」功能就會根據這些素材生成最終場景 。
2、或者提供起始和結束畫面 , 讓「幀轉視頻」功能在中間生成無縫過渡 , 這對需要藝術性轉場的項目特別有用 。
3、如果要生成更長的視頻 , 「延展」功能可以生成超過一分鐘的內容 , 基于前一段繼續生成 , 保持故事的連貫性 。
值得一提的是 , Veo 3 的文本轉視頻此前只支持 720p 橫屏輸出 , 但隨著豎屏視頻成為互聯網內容的主流格式 , Veo 3.1 現在也可同時生成橫屏和豎屏的 16:9 視頻 , 更符合當前的內容消費習慣 。創意的打磨往往需要反復迭代 。
自 Flow 于今年 5 月推出以來 , 用戶已經在該應用中創作了超過 2.75 億個視頻 。 吸取用戶的反饋之后 , Flow 中新增的兩個編輯功能就是為此而生——
「插入新元素」讓用戶可以隨時添加內容 , Flow 會自動處理陰影和光線 , 使新增部分自然融入原有畫面;
「移除對象」功能(即將上線)則可以刪除不需要的元素 , Flow 自動重建背景保持一致性 。 這兩個工具的組合能夠讓視頻的編輯過程變得更加靈活 。
目前 Veo 3.1 模型已經上線 , 開發者可以通過 Gemini API 使用 , 企業用戶可在 Vertex AI 中訪問 , 普通用戶也可以在 Gemini 應用內體驗 。 新功能也同步在 Gemini API 和 Vertex AI 中開放 。
我們體驗生成了 3 個 Veo 最實用的應用場景 。
前些時間爆火的第一視角穿越、ASMR 切水果 , 金屬、兔子蹦床的夜視監控等視頻 , 都是使用 Veo 3 生成的 。
由 Veo 3 生成 , 提示詞:50mm camera close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board. The inside of the fruit is glass as well with a little bit of melting glitter. The entire scene is soft lit from the above.
比如這個生成玻璃檸檬的例子 。 提示詞要求「用黃色玻璃制成的檸檬被水平切開 , 內部也是玻璃材質 , 里面有融化的閃粉 , 頂部柔和照亮」 。
Veo 3 的輸出是可用的 , 但 Veo 3.1 對「融化閃粉」的細節刻畫更精準 。
電商場景下 , 我們直接讓他生成一段產品的廣告 。 要知道 , 一般的 TVC(電視商業廣告)也就是在 15s/30s 的時間左右來傳遞品牌信息 。
由 Sora 2 生成 , 提示詞:根據以下商品信息 , 生成一段電商廣告視頻 , 包含實拍感的產品展示、3D旋轉細節、使用場景對比 , 以及配套字幕 。 智能手表 X2 , 續航7天 , ¥1299 智能手表 , 50米防水 , 健康監測(心電、睡眠)
Sora 2 貼心地用中文語音解說了商品信息 , 體現了更好的理解 。 但 Veo 3.1 這邊只是簡單地配了音樂 , 不如 Sora 2 周到 , 但從畫面質量來看 , Veo 3.1 的視覺呈現更高級、更有商業感 。
由 Veo 3.1 生成
我們也試了動漫生成 , 這次 Veo 3.1 的表現就比較一般了 。
由 Sora 2 生成 , 提示詞:以吉卜力工作室動畫風格 , 一個男孩和他的狗跑上一座長滿青草的風景秀麗的山丘 , 背景遠處可以看到一個村莊 , 天空中飄著美麗的云朵
顯然 Veo 3.1 在這塊的訓練數據還不夠豐富 , 距離吉卜力工作室那種精致的動畫風格還是有不少差距 。 莫名消失的狗 , 都是 AI 穿幫的典型特征 。
由 Veo 3.1 生成
X 網友 @aisearchio 分享的威爾·史密斯吃面測試 Demo 整體質感往上抬了一個檔次 , 動作流暢度、光影細節都明顯改善 , 表情豐富但也沒有崩掉 。
綜合來看 , Veo 3.1 在照片級、商業級的內容生成上已經足夠可用 , 細節理解能力也有明顯進步 。 但在特定風格的精準還原上——比如動漫、插畫這類需要高度風格約束的領域 , 還是有相當的優化空間 。盡管如此 , 從 Veo 3 到 Veo 3.1 , 從 Sora 到 Sora 2 , 視頻生成模型的迭代速度已經超過了大多數人的想象 。
伴隨著這類 AI 視頻生成工具會從專業工具逐漸演變為大眾應用 , 屆時 , 你的朋友圈、短視頻平臺、甚至新聞源中 , 每一條內容都有可能是 AI 生成的 。
這也意味未來你看到的每一條內容 , 都需要多一步確認——這來自真實拍攝 , 還是 AI 生成 。
作者:莫崇宇
文章內視頻鏈接:https://mp.weixin.qq.com/s/qBOkoWaGF5k7oPCR_H5aqA
#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr) , 更多精彩內容第一時間為您奉上 。
【剛剛, AI 視頻王者大更新!硬剛 Sora,威爾史密斯吃面更香了】愛范兒|原文鏈接· ·新浪微博
推薦閱讀
- 別只盯著Sora,中國AI視頻的實時交互已悄悄領先
- 華為11月神秘Mate直板旗艦曝光,與Mate80同臺,誰才是真王者?
- 視覺不再可信:擺脫AI視頻漩渦的四個步驟
- 剛剛,OpenAI官宣自研造芯,聯手博通開發10吉瓦規模的AI加速器
- 剛剛公布的 iPhone 17 銷量,恐怖如斯
- 剛剛,中半協聲明!
- B站抖音小紅書齊入視頻播客,結果還是大佬們的“局”
- 谷歌Gemini 3.0「全家桶」年度壓軸,前端不再需要人類,下周王者降臨
- 剛剛,Meta風雨飄搖中發了篇重量級論文,作者幾乎全是華人
- 剛剛,Figure 03人形機器人登場,能感知一枚回形針重量
