
文章圖片

文章圖片
機器之心報道
編輯:+0
制作一個視頻需要幾步?可以簡單概括為:拍攝 + 配音 + 剪輯 。
還記得 veo3 發布時引起的轟動嗎?「音畫同步」功能的革命性直接把其他視頻生成模型按在地上摩擦 , 拍攝 + 配音 + 粗剪一鍵搞定 。
那如果我就是想用自己迷人的聲音呢?或者我自帶精妙絕倫的配音?有沒有其他解決方案?
有的朋友 , 有的!
8 月 11 日 , Pika 推出了一個名為「音頻驅動表演模型」(Audio-Driven Performance Model)的新模型 。
Pika 允許用戶上傳音頻文件(如語音、音樂、說唱或任何聲音片段) , 并結合靜態圖像(如自拍或任意圖片)生成高度同步的視頻 。 視頻中的角色會自動匹配音頻 , 實現精確的口型同步(lip sync)、自然的表情變化和流暢的身體動作 。
更通俗一點說就是 , 讓任何一張靜態圖片 , 跟著你給的音頻動起來 , 而且是活靈活現的那種 。
你隨便扔給它一張自拍 , 再配上一段馬保國的「年輕人不講武德」 , 你照片里那張帥氣的臉 , 馬上就能口型神同步 , 連眉毛挑動的時機都分毫不差 , 主打一個「本人親授」 。
這事兒要是放以前 , 你起碼得是個頂級特效師 , 搗鼓個十天半個月才能弄出來 。 現在 , Pika 告訴你 , 平均只要 6 秒 。
你沒看錯 , 就是 6 秒 。 你上個廁所的功夫 , 那邊視頻都生成好了 , 而且還是 720p 高清 , 長度不限 , 想讓蒙娜麗莎給你唱一整首《忐忑》都行 。
不過目前功能僅限 iOS 端 , 且需要邀請碼 , 期待功能盡快開放 。
【6秒造一個「視頻博主」,Pika讓一切圖片開口說話】話不多說 , 我們來看看網友測評 。
首先來看看我們前面提到的自拍 + 音頻 , 效果可以說是相當驚艷了 。
地址:https://x.com/WilliamLamkin/status/1954940047624372508不論是說唱部分還是歌曲部分 , 唇同步準確性非常高 , 避免了以往 AI 視頻中常見的「假唱」問題 。
你如果仔細觀察會發現說唱部分中間有一段停頓 , 人物的表情神態也很自然 , 活人感十足 。 不過也不是完美無缺 , 男歌手的手看起來就怪怪的 。
Pika 官方也分享了幾個用戶制作的精彩視頻 。
地址:https://x.com/pika_labs/status/1955007656302924192對于不同語言 , Pika 生成的效果看起來也非常不錯 。
還可以生成一段不是吉米的吉米秀 , AI 演員的表現力非常不錯 。
用來拍電影怎么樣?讓亞洲面孔的大叔一口印式英語 , 吐槽露營的糟糕體驗 。
還可以直接來一場 live 秀!
我們可以預見 , 它將很快成為社交媒體上的新寵 , 誕生無數有趣的 Meme 和創意短片 。
但它的潛力遠不止于此:獨立游戲開發者可以用它快速生成 NPC 對話動畫 , 教育工作者可以制作更生動的講解視頻 , 甚至在不遠的將來 , 我們每個人都能擁有一個專屬的、能言善辯的 AI 數字分身 。
當然 , 技術總是一把雙刃劍 。 當任何圖片都能被賦予任何聲音時 , 如何辨別信息的真偽也成了我們必須面對的新課題 。
但無論如何 , 一個全民參與、創意迸發的視頻新時代 , 似乎已經敲響了大門 。 下一個引爆全網的病毒視頻 , 或許就將出自你我之手 。
視頻鏈接:https://mp.weixin.qq.com/s/EBQUtfKuPaXNLpAZcsM3NQ
推薦閱讀
- 蘋果芯片,全面美國制造
- 比亞迪開始造平板,以后也可能造手機,打通全場景生態!
- 2025AI行業升級生態戰:誰在“種樹”?誰在“造林”?
- ICT巨頭轉身AI“交鑰匙商”:中興全棧技術輸出,打造國家隊新質生產力
- 谷歌攤牌:Genie 3讓你1秒「進入」名畫,人人可造交互世界
- 徹底改變微芯片制造的“電子淋浴”
- 真提氣!光刻機等兩款高端制造設備成功交付,致敬中國工匠精神
- 驍龍8 Elite2與天璣9500:一個提頻,一個主打IPC,誰將勝出?
- 單機支持超萬億參數模型!浪潮信息發布超節點,給開源AI打造開放底座
- 世界杯摘金之后,“加速進化”要把機器人打造得跟個人電腦一樣可靠又便宜
