
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

現在刷社交媒體 , 你會發現一些畫面精良的爆款視頻 , 其實已經是 AI 制作的 。 但作為一個創作者 , 除了要像「抽卡」 , 在畫面之外 , 有一個問題一直沒有得到很好的解決 。
這個問題就是對白 。
比如我讓 AI 生成一段「唯美雨景」 , 這不難 。 但要讓 AI 生成一段有情節、有對話的「雨中分手戲」 , 對白還得是地道的中文 , 這就很棘手了 。
AI 生成的要么是完全的「啞劇」 , 需要創作者后期對口型、配音;要么是能開口說話 , 但語音語調不自然 , 充滿了「人機感」和「翻譯腔」 , 讓本該感傷的劇情瞬間出戲 。
這也是當下 AI 視頻生成最大的挑戰之一:如何處理包含對白 , 尤其是帶有復雜情緒的中文對白 。
可以說 , 能否搞定自然流暢的中文對話 , 是 AI 視頻能否從一個「看個樂子」的玩具 , 變成真正生產力工具的關鍵 。
百度今天發布的蒸汽機(MuseSteamer)視頻模型2.0 , 似乎就是沖著這個核心痛點來的 。 它最讓我關注的一個點 , 是全球首個中文音視頻一體化生成技術 , 號稱是吃「中文語料」長大的 , 能夠一步到位地生成音畫同步、口型精準、情感自然的中文對話視頻 。
為了驗證它到底是真正解決了創作者的難題 , 還是又一次停留在宣傳片里的技術展示 , 我決定繞開那些官方的精選案例(Demo) , 設計幾個更接近普通人日常創作需求的「刁鉆」場景 , 親自探探它的虛實 。
體驗地址:https://huixiang.baidu.com/
從一張圖 , 到一場有聲的對手戲百度蒸汽機這次提供了 4 款生成模型 , 都是從一張圖生成一個視頻 , 分別是蒸汽機 2.0 turbo、pro、lite、以及有聲版;不同的模型會消耗不同數量的積分 , 免費用戶每月登錄可以獲得有限額度的想象力值(積分) 。
有聲版可以生成 5s 或者 10s 的視頻 , 而 Turbo 等三個版本是 5s , 像素方面除了 Pro 版本支持 1080p , 其他三個版本都是 720p 高清畫質 。
我們直接給他一張圖 , 然后按照視頻生成頁面的提示 , 輸入想要生成的視頻內容和主題臺詞;5s 的視頻 , 將臺詞控制在 20 字以內 , 10s 的視頻字數控制在 35 字以內 。
我們上傳了一張馬斯克和奧特曼的合照 , 配上提示詞:兩個人針鋒相對 , 左邊的人先說 , 「你做的AI毫無底線」;右邊的人說 , 「你的營銷才是沒有底線」;由蒸汽機 2.0 有聲版生成 。
首先 , 靜態照片里的馬斯克和奧特曼被自然地驅動了起來 , 面部表情和肢體動作都相當流暢 , 并且和上傳的圖片基本保持一致 , 圖生視頻的基礎能力還是很扎實的 。
更關鍵的是對話部分 , 這個表現 , 必須承認 , 在中文口型同步上 , 百度蒸汽機確實做到了目前的第一梯隊 。 嘴唇的開合 , 與「底線」、「營銷」等一些詞語的發音匹配度很高 , 沒有明顯的延遲或錯位 。
一張浪浪山小妖怪的首幀圖 , 配合提示詞:畫面中 , 手持干草叉的野豬小妖抬頭 , 滿懷期待地看向身邊身材魁梧的熊教頭 。臺詞: (第0-5秒)手持干草叉的野豬小妖說: 「教頭 , 咱們把盔甲擦亮點 , 打起來更有氣勢!」 (第5-10秒)身材魁梧的熊教頭向下瞥了他一眼 , 不耐煩地打斷道: 「有那工夫?先給我削一千支箭出來!」
在發布會上 , 百度特別提到 , 這是來自「音視頻一體化」的底層生成邏輯 , 聲音和畫面是同步構思的 , 而非后期匹配 , 他們在訓練時就把畫面和聲音放在一個模型里同步學習 。
此外 , 還有一個「多模態潛在空間規劃器」(Latent Multi Modal Planner)的首創技術;多模態很好理解 , 就是文本、畫面、音頻 , Latent 是深度學習里面術語 , 主要是學習潛在的特征 , 這個技術能夠自主地規劃潛在生成空間里的多個角色身份、臺詞、以及互動邏輯等 。
通俗來講 , 我們可以把它想象成一個內置在 AI 里的導演 , 當給出「讓兩個人吵架」的指令時 , 它不會傻傻地讓兩人同時說話 , 而是會自主規劃吵架劇本 。
我們還嘗試了一些東北話這樣的方言 , 想看看在多人對話里 , 是不是也完全沒有問題 。
提示詞:畫面左邊的藍衣女子耳語急促而冰冷 , 用東北話說:「姐姐 , 真心是咱們的炭 , 也是燒死咱們的火」;畫面右邊的紫粉衣女子決絕地用東北話回應:「那不如 , 就燒得干凈些」;由蒸汽機 2.0 有聲版生成 。
讓甄嬛和沈眉莊在音視頻一體化生產的模型里 , 說東北話確實為難了點 , 但是人物表情 , 嘴唇的動作 , 耳環、頭飾等運動都非常自然 。 中文語音的細節還原度也很高 , 我覺得是真正做到了中文語境的深度適配 。
還有這張經典的梗圖 , 終于不是「快來品嘗我新鮮的肉體」了 。
一張萬萬沒想到短片截圖 , 提示詞:畫面左邊帶著紅色帽子的唐僧 , 用手指著牛角的人的鼻子 , 非常生氣的說:「還想品嘗我新鮮的肉體 , 沒門!」
百度蒸汽機確實精準地擊中了 , 讓一張圖開口說話演一出對手戲 , 這個創作痛點 。 它將過去繁瑣的多工具流程 , 簡化為「一張圖+一句話」的一步操作 , 這對于 Meme 二創、虛擬人對話、知識講解、短劇制作等場景來說 , 無疑是一次生產力的解放 。
如果說要真正做到前段時間流行的《甄嬛傳》和《讓子彈飛》的視頻配音演示效果 , 還是有些差距 。 但看現在的 AI 視頻生成技術發展 , AI 能表達更細膩、更矛盾的人類情感 , 我想也只是時間上的問題 , 畢竟蒸汽機 1.0 模型還是上個月初發布的 。
運鏡和大場面 , 它能駕馭嗎?
除了在中文場景下 , 雙人有聲的音視頻一體化生成首創 , 百度蒸汽機 2.0 的另一項升級是電影級的畫質和大師級的復雜運鏡 。
之前的對話視頻里 , 情緒、表情以及 3D 面部生成 , 都算得上展示了真實細膩的人物表現力 。 我們繼續測試了廣告和短劇中常見的轉場、空鏡 , 這些可以說是 AI 視頻 , 除了對話的另一個剛需 。
提供首幀圖 , 并附上提示詞:一個鏡頭 , 從書桌上的翻開的書本特寫開始 , 慢慢向上拉起 , 最終定格在窗外下著雨的街景上;由蒸汽機 2.0 Pro 生成 。
從生成的視頻效果來看 , 蒸汽機把指令的遵循做得非常好 。 整個運鏡過程 , 特寫、向上拉、定格 , 執行得相當流暢 , 沒有出現鏡頭亂晃或指令理解錯誤的問題 。 這也說明它對攝影術語的理解是到位的 。
當 AI 學會地道中文 , 視頻創作新的轉折點來了經過這番測試 , 我認為百度蒸汽機 2.0 的定位非常清晰:它并非要成為一個無所不包的 Sora 式模型 , 而是選擇了一條更務實的路徑:以「中文對話」為核心突破口 , 將 AI 視頻從一個有趣的「玩具」 , 推進到了一個可以交付成片的「工具」 。
它繞開了單純比拼畫質和時長的內卷 , 把更多力氣都花在了解決一個最要命、也最本土化的問題上——讓 AI 視頻真正「開口說中國話」 , 而且說得比真人還溜 。
這種從「玩具」到「工具」的轉變 , 已經在真實的創作和商業領域得到了驗證 。
好萊塢級視效指導姚騏 , 曾參與《2012》、《黑客帝國3》、《變形金剛3》等影視作品的視效工作 , 在國產科幻劇《三體》中打造了經典的古箏行動畫面特效 。 這次 , 他就用百度蒸汽機創作了一支高品質科幻短片 , 其中包含 40 多個宏大復雜的特效鏡頭 , 每個鏡頭生成 3 次 , 總計生成了 120 多個片段素材 , 累計僅花費了 330.6 元 。
發布會視頻《歸途》
當一個過去需要百萬元級別預算的短片 , 其視覺生成成本被壓縮到難以想象的低位時 , 被顛覆的不僅僅是預算 , 更是創作的門檻和權利 。
這背后 , 解決的不僅是成本的問題 , 更是從生成一個酷炫片段到講述一個完整故事的轉變 。 當宏大視效可以與敘事和對白無縫結合時 , AI 才真正從一個特效插件 , 升級為創作者手里的高效率工具 。
在品牌營銷場景 , 這種模式也打破了常規的視頻制作流程 。 比如伊利倍暢需要為一款羊奶粉制作宣傳片《漂「羊」過海來看你》 , 傳統方式不僅周期一般需要 4-6 周 , 而且要用實拍呈現「小羊莎莎」坐熱氣球環游荷蘭草原和高科技工廠的奇幻之旅 , 成本和難度都極高 。
但這次制作團隊利用蒸汽機 , 將這些實拍難以完成的奇幻場景 , 通過風格化的 AI 渲染來實現 。 更重要的是 , AI 將荷蘭奶源、益生菌配方等硬核賣點 , 流暢融入了敘事中 , 制作周期縮短到了幾天之內 , 畫面不違和 , 同時表達了品牌的理念 。
無論是專業大神 , 還是無數中小創作者與品牌方 , 相當于都獲得了「賽博神筆」 。 你只需要「一張圖+一句話」 , 就能讓靜態的兵馬俑活過來打電話 , 或者讓張飛一邊繡花一邊跟你嘮嗑 。 這種創作門檻的消失 , 正在重塑內容行業的成本公式和競爭規則 。
當然 , 它也不是完美的瑞士軍刀 。 目前它在非對話的純視覺特效上 , 生成視頻的時長也還有限制 , 音色風格的選擇也可以更豐富 。
但在快速迭代 AI 產品浪潮中 , 也沒有真正完美的產品 , 反而能更快落地解決用戶的實際需求 , 才更有意義 。百度蒸汽機沒有陷入技術軍備競賽的虛榮 , 而是選擇了一條更務實、更貼近市場的路 。 它就像一個專注于把釘子敲好的錘子 , 雖然不能刨木頭 , 但在「敲釘子」這件事上 , 它做到了極致 。
看著 AI 生成的角色在我面前侃侃而談 , 卻沒什么「人機感」 , 那種奇妙還是會忍不住涌上來 。 工具終將隱形 , 而創意永遠閃耀 。 蒸汽機所做的 , 就是把那個曾經無比昂貴、屬于少數人的導演夢 , 還給了每一個有話想說的人 。
現在 , 我們已經不缺好的工具 , 只是缺少新鮮的創意;而與眾不同的創意 , 來自一次次的嘗試 。
文|李超凡、張子豪
文章內視頻瀏覽點擊此鏈接訪問:https://mp.weixin.qq.com/s/cy7m7e97AVVo5VqUcnS0_w
#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr) , 更多精彩內容第一時間為您奉上 。
【馬斯克奧特曼中文對噴, AI 視頻終于從「玩具」變成「工具」】愛范兒|原文鏈接· ·新浪微博
推薦閱讀
- 一年就放棄!庫克在iPhone16上,“創新”了一個最無用的功能?
- 馬斯克痛失xAI大將,Grok 4締造者突然離職,長文曝最燃創業內幕
- 奧特曼首曝GPT-6,親口承認GPT-5「搞砸了」,接入大腦讀心,估值或飆破5000億
- 馬斯克一覺醒來,Space X在京開賣了
- 阿里圖像生成模型登頂HuggingFace,一句話把馬斯克“變老”
- AMD蘇姿豐公開懟扎克伯格,反對1億年薪挖人,“使命感比鈔票更重要“
- 庫克的倔強:國行蘋果iPhone 17 Air,也換成eSIM
- 16歲天才少年炒掉馬斯克,空降華爾街巨頭,9歲上大學,14歲進SpaceX
- OpenAI CEO奧特曼:美國或低估中國AI實力,出口管制難奏效
- 馬斯克的星鏈又掉鏈子了,這次在美國!
