馬斯克奧特曼中文對噴， AI 視頻終于從「玩具」變成「工具」_蘋果

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

現在刷社交媒體，你會發現一些畫面精良的爆款視頻，其實已經是 AI 制作的。但作為一個創作者，除了要像「抽卡」，在畫面之外，有一個問題一直沒有得到很好的解決。
這個問題就是對白。
比如我讓 AI 生成一段「唯美雨景」，這不難。但要讓 AI 生成一段有情節、有對話的「雨中分手戲」，對白還得是地道的中文，這就很棘手了。
AI 生成的要么是完全的「啞劇」，需要創作者后期對口型、配音；要么是能開口說話，但語音語調不自然，充滿了「人機感」和「翻譯腔」，讓本該感傷的劇情瞬間出戲。
這也是當下 AI 視頻生成最大的挑戰之一：如何處理包含對白，尤其是帶有復雜情緒的中文對白。
可以說，能否搞定自然流暢的中文對話，是 AI 視頻能否從一個「看個樂子」的玩具，變成真正生產力工具的關鍵。
百度今天發布的蒸汽機（MuseSteamer）視頻模型2.0 ，似乎就是沖著這個核心痛點來的。它最讓我關注的一個點，是全球首個中文音視頻一體化生成技術，號稱是吃「中文語料」長大的，能夠一步到位地生成音畫同步、口型精準、情感自然的中文對話視頻。
為了驗證它到底是真正解決了創作者的難題，還是又一次停留在宣傳片里的技術展示，我決定繞開那些官方的精選案例（Demo），設計幾個更接近普通人日常創作需求的「刁鉆」場景，親自探探它的虛實。
體驗地址：https://huixiang.baidu.com/

從一張圖，到一場有聲的對手戲百度蒸汽機這次提供了 4 款生成模型，都是從一張圖生成一個視頻，分別是蒸汽機 2.0 turbo、pro、lite、以及有聲版；不同的模型會消耗不同數量的積分，免費用戶每月登錄可以獲得有限額度的想象力值（積分）。
有聲版可以生成 5s 或者 10s 的視頻，而 Turbo 等三個版本是 5s ，像素方面除了 Pro 版本支持 1080p ，其他三個版本都是 720p 高清畫質。
我們直接給他一張圖，然后按照視頻生成頁面的提示，輸入想要生成的視頻內容和主題臺詞；5s 的視頻，將臺詞控制在 20 字以內， 10s 的視頻字數控制在 35 字以內。
我們上傳了一張馬斯克和奧特曼的合照，配上提示詞：兩個人針鋒相對，左邊的人先說，「你做的AI毫無底線」；右邊的人說，「你的營銷才是沒有底線」；由蒸汽機 2.0 有聲版生成。
首先，靜態照片里的馬斯克和奧特曼被自然地驅動了起來，面部表情和肢體動作都相當流暢，并且和上傳的圖片基本保持一致，圖生視頻的基礎能力還是很扎實的。
更關鍵的是對話部分，這個表現，必須承認，在中文口型同步上，百度蒸汽機確實做到了目前的第一梯隊。嘴唇的開合，與「底線」、「營銷」等一些詞語的發音匹配度很高，沒有明顯的延遲或錯位。
一張浪浪山小妖怪的首幀圖，配合提示詞：畫面中，手持干草叉的野豬小妖抬頭，滿懷期待地看向身邊身材魁梧的熊教頭。臺詞：（第0-5秒）手持干草叉的野豬小妖說：「教頭，咱們把盔甲擦亮點，打起來更有氣勢！」（第5-10秒）身材魁梧的熊教頭向下瞥了他一眼，不耐煩地打斷道：「有那工夫？先給我削一千支箭出來！」
在發布會上，百度特別提到，這是來自「音視頻一體化」的底層生成邏輯，聲音和畫面是同步構思的，而非后期匹配，他們在訓練時就把畫面和聲音放在一個模型里同步學習。
此外，還有一個「多模態潛在空間規劃器」（Latent Multi Modal Planner）的首創技術；多模態很好理解，就是文本、畫面、音頻， Latent 是深度學習里面術語，主要是學習潛在的特征，這個技術能夠自主地規劃潛在生成空間里的多個角色身份、臺詞、以及互動邏輯等。
通俗來講，我們可以把它想象成一個內置在 AI 里的導演，當給出「讓兩個人吵架」的指令時，它不會傻傻地讓兩人同時說話，而是會自主規劃吵架劇本。
我們還嘗試了一些東北話這樣的方言，想看看在多人對話里，是不是也完全沒有問題。
提示詞：畫面左邊的藍衣女子耳語急促而冰冷，用東北話說：「姐姐，真心是咱們的炭，也是燒死咱們的火」；畫面右邊的紫粉衣女子決絕地用東北話回應：「那不如，就燒得干凈些」；由蒸汽機 2.0 有聲版生成。
讓甄嬛和沈眉莊在音視頻一體化生產的模型里，說東北話確實為難了點，但是人物表情，嘴唇的動作，耳環、頭飾等運動都非常自然。中文語音的細節還原度也很高，我覺得是真正做到了中文語境的深度適配。
還有這張經典的梗圖，終于不是「快來品嘗我新鮮的肉體」了。
一張萬萬沒想到短片截圖，提示詞：畫面左邊帶著紅色帽子的唐僧，用手指著牛角的人的鼻子，非常生氣的說:「還想品嘗我新鮮的肉體，沒門！」
百度蒸汽機確實精準地擊中了，讓一張圖開口說話演一出對手戲，這個創作痛點。它將過去繁瑣的多工具流程，簡化為「一張圖+一句話」的一步操作，這對于 Meme 二創、虛擬人對話、知識講解、短劇制作等場景來說，無疑是一次生產力的解放。
如果說要真正做到前段時間流行的《甄嬛傳》和《讓子彈飛》的視頻配音演示效果，還是有些差距。但看現在的 AI 視頻生成技術發展， AI 能表達更細膩、更矛盾的人類情感，我想也只是時間上的問題，畢竟蒸汽機 1.0 模型還是上個月初發布的。
運鏡和大場面，它能駕馭嗎？
除了在中文場景下，雙人有聲的音視頻一體化生成首創，百度蒸汽機 2.0 的另一項升級是電影級的畫質和大師級的復雜運鏡。
之前的對話視頻里，情緒、表情以及 3D 面部生成，都算得上展示了真實細膩的人物表現力。我們繼續測試了廣告和短劇中常見的轉場、空鏡，這些可以說是 AI 視頻，除了對話的另一個剛需。
提供首幀圖，并附上提示詞：一個鏡頭，從書桌上的翻開的書本特寫開始，慢慢向上拉起，最終定格在窗外下著雨的街景上；由蒸汽機 2.0 Pro 生成。
從生成的視頻效果來看，蒸汽機把指令的遵循做得非常好。整個運鏡過程，特寫、向上拉、定格，執行得相當流暢，沒有出現鏡頭亂晃或指令理解錯誤的問題。這也說明它對攝影術語的理解是到位的。

當 AI 學會地道中文，視頻創作新的轉折點來了經過這番測試，我認為百度蒸汽機 2.0 的定位非常清晰：它并非要成為一個無所不包的 Sora 式模型，而是選擇了一條更務實的路徑：以「中文對話」為核心突破口，將 AI 視頻從一個有趣的「玩具」，推進到了一個可以交付成片的「工具」。
它繞開了單純比拼畫質和時長的內卷，把更多力氣都花在了解決一個最要命、也最本土化的問題上——讓 AI 視頻真正「開口說中國話」，而且說得比真人還溜。
這種從「玩具」到「工具」的轉變，已經在真實的創作和商業領域得到了驗證。
好萊塢級視效指導姚騏，曾參與《2012》、《黑客帝國3》、《變形金剛3》等影視作品的視效工作，在國產科幻劇《三體》中打造了經典的古箏行動畫面特效。這次，他就用百度蒸汽機創作了一支高品質科幻短片，其中包含 40 多個宏大復雜的特效鏡頭，每個鏡頭生成 3 次，總計生成了 120 多個片段素材，累計僅花費了 330.6 元。
發布會視頻《歸途》
當一個過去需要百萬元級別預算的短片，其視覺生成成本被壓縮到難以想象的低位時，被顛覆的不僅僅是預算，更是創作的門檻和權利。
這背后，解決的不僅是成本的問題，更是從生成一個酷炫片段到講述一個完整故事的轉變。當宏大視效可以與敘事和對白無縫結合時， AI 才真正從一個特效插件，升級為創作者手里的高效率工具。
在品牌營銷場景，這種模式也打破了常規的視頻制作流程。比如伊利倍暢需要為一款羊奶粉制作宣傳片《漂「羊」過海來看你》，傳統方式不僅周期一般需要 4-6 周，而且要用實拍呈現「小羊莎莎」坐熱氣球環游荷蘭草原和高科技工廠的奇幻之旅，成本和難度都極高。
但這次制作團隊利用蒸汽機，將這些實拍難以完成的奇幻場景，通過風格化的 AI 渲染來實現。更重要的是， AI 將荷蘭奶源、益生菌配方等硬核賣點，流暢融入了敘事中，制作周期縮短到了幾天之內，畫面不違和，同時表達了品牌的理念。
無論是專業大神，還是無數中小創作者與品牌方，相當于都獲得了「賽博神筆」。你只需要「一張圖+一句話」，就能讓靜態的兵馬俑活過來打電話，或者讓張飛一邊繡花一邊跟你嘮嗑。這種創作門檻的消失，正在重塑內容行業的成本公式和競爭規則。
當然，它也不是完美的瑞士軍刀。目前它在非對話的純視覺特效上，生成視頻的時長也還有限制，音色風格的選擇也可以更豐富。
但在快速迭代 AI 產品浪潮中，也沒有真正完美的產品，反而能更快落地解決用戶的實際需求，才更有意義。百度蒸汽機沒有陷入技術軍備競賽的虛榮，而是選擇了一條更務實、更貼近市場的路。它就像一個專注于把釘子敲好的錘子，雖然不能刨木頭，但在「敲釘子」這件事上，它做到了極致。
看著 AI 生成的角色在我面前侃侃而談，卻沒什么「人機感」，那種奇妙還是會忍不住涌上來。工具終將隱形，而創意永遠閃耀。蒸汽機所做的，就是把那個曾經無比昂貴、屬于少數人的導演夢，還給了每一個有話想說的人。
現在，我們已經不缺好的工具，只是缺少新鮮的創意；而與眾不同的創意，來自一次次的嘗試。
文｜李超凡、張子豪
文章內視頻瀏覽點擊此鏈接訪問：https://mp.weixin.qq.com/s/cy7m7e97AVVo5VqUcnS0_w
#歡迎關注愛范兒官方微信公眾號：愛范兒（微信號：ifanr），更多精彩內容第一時間為您奉上。
【馬斯克奧特曼中文對噴， AI 視頻終于從「玩具」變成「工具」】愛范兒|原文鏈接· ·新浪微博

馬斯克奧特曼中文對噴， AI 視頻終于從「玩具」變成「工具」

推薦閱讀

蜈蚣是害蟲還是益蟲啊蜈蚣屬于害蟲還是益蟲

2022廣州住房公積金利率調整后有什么好處？

枕巾多久洗一次枕巾什么時候洗一次

結婚為什么吃烤乳豬不好結婚為什么吃烤乳豬

小提琴是什么調

成都歡樂谷門票價格成都歡樂谷門票多少錢一張

求鑒定阿迪達斯貝殼頭小熊鞋

如何注銷申請的刷寶賬號

上海虹口區公租房入住流程

回水排氣閥不出水也不出氣怎么處理

特斯拉充電樁安裝有哪些條件

其實我不在乎初三作文

python考勤管理系統 Python上課點名系統附源碼

助人為樂手抄報我是小天使幫助他人手抄報怎么畫

怎樣調出一杯好喝的咖啡

西餐擺盤怎么擺s型