
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
編輯:KingHZ 桃子
【新智元導讀】三天登頂美區App Store , Sora 2用「Cameo客串」再造狂潮;可別忘了 , 更早提出「Reference參考生」的國產AI視頻Vidu也即將在本月底升級Vidu Q2參考生功能 。 在一致性、運鏡理解、動作連貫三大維度上 , 看看誰才是下一代AI視頻的領航者?
OpenAI再掀全球狂歡 , Sora 2三天登頂美區App Store , 再造一個ChatGPT時刻 。
用戶只需要輸入文字提示 , Sora就能生成幾乎任何你能想象到的視頻片段 。
特別是 , Sora 2 Cameo功能讓奧特曼客串各種梗圖 , 全網徹底玩瘋了奧特曼 。
【全球AI視頻大戰升級!Vidu Q2參考生月底發布,能力對標Sora 2】
左右滑動查看
奧特曼表示雖然信息流里出現的自己的梗圖 , 沒想象中奇怪 , 但仍有些迷惑 。
盡管看起來這場讓國外狂歡的盛宴來得突然 , 實際上類似Sora 2 Cameo功能 , 則在國內并不鮮見 , 以中國版「Sora」Vidu為例 , 作為全球「參考生」功能概念的首個提出者 , 它與Cameo如出一轍 。
幾乎同時 , Vidu也被曝「參考生視頻」功能 , 將在本月底迎來Q2版本的重大更新 。
不過 , 該功能目前仍處于保密內測階段 。 基于拿到的第一手內測 , 我們嘗試進行同樣內容制作 , 比如 , 參考奧特曼形象 , Vidu Q2可生成奧特曼在工業風閣樓中作畫的場景——
此前 , Vidu AI在Vidu Q2圖生視頻發布時表示 , 新版本將AI視頻帶入了下個階段——不僅生成視頻 , 還能生成演技 。
AI演戲時代已開啟:表情更豐富 , 運鏡更靈活 , 速度更快 , 理解更深入 。
相比前一代 , Vidu Q2圖生視頻已全球上線 , 在時長選擇、鏡頭語言和語義理解上取得了明顯提升 。
而這一次的Vidu Q2「參考生視頻」不僅是功能的迭代 , 更預示著在下一代AI視頻生成路徑上 , 全球已全面展開正面交鋒 。
Vidu:推動「視頻生成」
走向「演技生成」時代到來
先看一下Vidu Q2在官方示例上的表現:
左右滑動查看
據悉 , Vidu Q2參考生視頻與圖生視頻一樣 , 將在價格、時長選擇、鏡頭語言支持和語義理解給予用戶更多選擇 。
內測發現 , Vidu Q2 參考生視頻支持2-8秒不同時長自由選擇、支持1080p高清晰度、3種寬高比 。
我們先看一下為什么說Vidu才是讓奧特曼火出圈的「Cameo客串」功能的開創者 , 為什么說Vidu在類似功能「Reference參考生」上比OpenAI領先 。
Vidu:參考生視頻領先OpenAI
「參考生視頻」并不是Vidu Q2推出的新功能 , 早在去年9月Vidu 1.0版本就已推出 , 而且Vidu是全球最早推出參考生視頻功能的 , 并首個做到支持7個主體參考 。
簡單而言 , 「參考生視頻」是引用角色、道具、場景等更多素材內容來生成視頻 , 從而更好地控制生成效果 , 而且直接從素材到視頻 , 省去了中間的分鏡腳本制作環節 。
此外 , Vidu 的「參考生視頻」起步更早 , 覆蓋范疇也更廣 。
所謂的Sora 2 Cameo其實是類似于Vidu 參考生功能——
均可用「@」調用不同形象 , 并基于所選形象進行二次創作 。
從行業角度看 , Sora 2 Cameo就是一種「參考人物生成視頻」的形式 。
Vidu最多同時參考7張圖片 , 而且萬物皆可參考 。
相比Vidu Q2 , Sora 2有明顯的局限:目前不支持對物體進行@調用;當直接上傳物體圖片作為參考時 , 最多僅能參考一個物體;最多支持三個人物客串演出 。
而且Vidu不僅是引用角色 , 更是引用一切素材(道具、場景、物體等) 來生成視頻 , 為創作者提供了更高的自由度和控制力 , 同時Vidu還可以最多支持7張參考圖片 , 可以是7個角色 , 也可以是人物、道具、場景等的不同排列組合 。
在Vidu中上傳圖片并添加描述即可創建「主體」 , 之后在主體庫中勾?。 換蛑苯釉諤崾敬適淙肟蛑惺淙隌上傳的圖片素材即可 。
此外 , 還可以在Vidu首頁「主體」廣場中使用其他用戶投稿的公開主體 , 例如可以直接使用網友「caelum mo」投稿的小男孩主體 。 這種用戶間主體庫的分享不僅降低了用戶的使用門檻 , 而且更具互動社交屬性 , 可玩性更高 。
為了提升主體的一致性 , 上傳圖片時 , 可上傳三視圖(正面、側面、背面)到【主體庫】 , 也可上傳多角度圖片 , 或者立體感的圖片;而提示詞描述可以直接打開提示詞框下面的【專業模式】 , 讓AI直接將你的自然語言轉換為更準確的提示詞描述 , 提升識別準確性 。
比如 , 「星辰研究所-微BT_buding」投稿的「黑暗巨龍飛行狀態」 , 上傳了三張不同角度的圖片 。
基于此主體 , 制作的「飛龍在天」視頻:
除了人物等角色之外 , 創作者冰皓利用主體 , 一鍵復制特效:
據透露 , 本月底Vidu的「參考生視頻」迎來更新 , 一致性更好 , 價格更優惠 , 速度更快 , 依舊全球領先 。
核心技術指標正面PK:誰更勝一籌
OpenAI的Sora 2的確有不少亮點 , 比如:
可自動補充大量不同分鏡;實現了音視頻直出 , 并且可以控制語音內容;
在核心技術指標 , 比如一致性、語義理解、動作自然度上 , Vidu相對優勢更大 。
讓我們一睹這兩大AI視頻工具在多項技術上的正面交鋒吧!
一致性:Vidu生成內容更可控
從內測效果來看 , 一致性方面 , Vidu Q2參考生比Sora 2表現更佳 。
先請奧特曼客串一下 。 下面的案例中 , Sora 2直接改變了皇冠的樣式 , 而Vidu Q2則能完全保持皇冠的細節特點 。
Prompt:@Sam 介紹 @皇冠
沒用@cameo功能時 , Sora2圖生視頻里的人臉一致性明顯較差 。 Sora2用了@引用功能時 , 一致性依舊略差于Vidu 。
案例2中 , 輸入圖片:
Prompt:女孩閉上眼睛 , 身后的云朵飛舞 , 發出金光
語義理解:Sora 2對于運鏡理解一般
綜合而言 , Sora 2與Vidu Q2在語義理解能力上差不多 , 多數提示詞都能正確理解 。
但一些常見的內容 Sora 2卻無法正確理解 。
例如 , 下列提示詞Vidu Q2處理的直升飛機較好 , 而Sora 2遜色不少 。
Prompt: 海面上空環繞著數十架直升機 , 遠景
實際上 , 在運鏡理解方面 , Sora 2表現并不穩定 , 多數案例下都沒能正確理解運鏡指令 。
比如 , 鏡頭右移 , Vidu Q2(下圖左)完全無壓力 , 而Sora 2卻并沒有理解鏡頭右移的意思 。
Prompt: 鏡頭右移
Vidu Q2 參考生
Sora 2
鏡頭拉遠同樣如此:
Vidu Q2 參考生
Sora 2
Prompt:行進中的列車里 , 右邊的男人回頭向后看 , 鏡頭拉遠
動態自然度:Vidu更連貫
相對而言 , 大部分情況下Vidu Q2生成的視頻動作比Sora 2更加連貫 。
例如 , 水晶酒杯掉地板 , 突然爆裂的瞬間的視頻中 , Sora 2生成的動作連貫性不如Vidu Q2 。
在舞蹈房內 , Sora 2生成的視頻跳到一半靜止了 , 而Vidu Q2生成的視頻(下圖左)則流暢許多 。
Prompt: 四周都是鏡子的舞蹈房內 , 女生牽著男生的手優雅旋轉翩翩起舞 , 動作流暢一致 , 衣裙隨舞步輕盈擺動 , 鏡面反射出舞蹈全景 , 鏡頭緩慢環繞捕捉舞蹈細節 。
Sora 2經常會出現畫面內元素靜止、不動的bug 。
對下列演唱會場景的視頻中 , Vidu Q2生成的視頻比較流暢 , 而Sora 2生成的視頻有點像PPT 。
Prompt:激動得滿臉通紅 , 眼睛瞪得極大 , 雙手捂住臉 , 不敢相信 , 隨后又瘋狂地揮舞手中的熒光棒 。
特效畫面中 , Vidu Q2生成的巨龍在空中噴火 , 特效非常真實 , 相比之下Sora 2生成的視頻只有火在動 , 不夠流暢自然 。
Prompt:特寫鏡頭緊緊聚焦在一條龍的下顎上 。 熱氣明顯地扭曲了周圍的空氣 , 它的喉嚨開始發出強烈的鈷藍色光芒 。 它呼氣 , 一股閃爍著、富含粒子的藍色火焰集中噴射而出 , 填滿了整個畫面 。 鏡頭跟隨火焰 , 看著它猛擊在一座城堡墻壁粗糙、風化的石頭上 。 我們看到石頭在熱沖擊下瞬間裂開 , 閃爍的藍色能量在裂縫中飛速蔓延 。 石頭表面起泡、爆裂 , 變成濃稠、黏滯的巖漿 , 像糖漿般沉甸甸地滴落下來 。 那聲音是噴氣發動機的轟鳴聲與巖石熔化成液體時的嘶嘶聲和爆裂聲的恐怖混合 。
在另一個真實案例中 , 面對一個流水的水龍頭 , Sora 的鏡頭從水流特寫快速切換至水管開關 , 并以一個短暫的靜止畫面作結 。
而Vidu Q2則采用了更為平穩的運鏡 , 讓鏡頭徐徐拉進 , 整體觀感更為貼近日常 , 顯得十分自然 。
Prompt:水管里水在流動 , 鏡頭推進對焦到水管開關上
同時 , Sora表情、微動態不如Vidu層次豐富 , Vidu更能滿足對于表情演繹有較高要求的影視、動漫行業的需求 。
Prompt:二維扁平動畫風格 , 主角神色慌張 , 嘴中冒出冷氣 , 同時回頭張望 , 看向鏡頭后朝鏡頭方向跑出畫面
最后 , 看一下Vidu生成的豐富表情和微動態在動漫行業的應用 , 表情變化層次豐富 , 非常自然 。
Prompt: 過山車在軌道上飛馳 , 情侶坐在第一排 , 女生緊緊抓住安全桿 , 男生試圖轉頭看她卻被慣性甩回;鏡頭切換到兩人的面部特寫 , 女生張大嘴巴尖叫 , 眼淚被風吹得貼在臉頰 , 男生則笑著大喊 , 牙齒咬得緊緊的 , 雙手比出勝利的手勢 。
創作者也開始將Vidu Q2「參考生」功能玩出了花 。 國內創作者@陳暢用Vidu Q2「參考生」功能做了一個非常驚艷的短片:細節豐富、運鏡流暢 , 完成度非常高 。
就連鋼鐵俠本尊 , 也有了全新戰甲 。
參考圖:
圖1;圖2
生成的視頻:
提示詞:[@圖1
[@圖2
圖1機器盔甲和圖2的人一樣大 , 圖1貼合在它里面的圖2的人圖1機器盔甲機甲外形保持不變 , 頭盔掀起露出圖2人的臉胸甲從中間收縮打開露出人的上半身手臂部機甲從手臂中間收縮打開露出人的手臂腿部機甲從腿部中間收縮打開露出人的腿除了打開的部分 , 機甲其他部分保持連接在一起不斷開 , 機甲后背不變圖2人物的手臂從機甲手臂里出來 , 腿從機甲的腿出來 , 人物整體從機甲里面走出來鏡頭全景所有變形都通過機械傳動裝置
有創作者還讓黑暗游俠NPC出場 , Vidu Q2直出視頻 , 三個鏡頭流暢連貫 , 令人驚嘆 。
將主角三視圖輸入到Vidu參考生功能的主體庫中:
Prompt:[@黑暗游俠
0-1s鏡頭1 , 頭發飄揚 , 拉開弓 , 超近特寫 , 背景是黑暗森林閃著奇幻的光 , 箭射出去 。 切鏡頭1-6s鏡頭2 , 黑暗游拿著弓在黑暗森林里快速跑動跳躍 , 鏡頭自由跟隨 , 特寫全身自由切換 , 在樹林中穿梭 , 急速大幅度不斷跳躍 , 閃爍 。 切鏡頭6-8s鏡頭3 , 一個旋轉鏡頭環繞人臉慢動作特寫 , 露出邪魅的笑容
月底突襲 , Sora 2真正挑戰者來了
如今 , AI視頻生成領域 , 已成為科技巨頭們「打得不可開交」的又一大主戰場 。
谷歌Veo 3、OpenAI Sora 2 , 以及馬斯克xAI最新放出的Imagine v0.9 , 均在音畫同步、人物一致性等方面 , 掀起一波又一波的創新狂潮 。
左右滑動查看
反觀國內 , 以Vidu、Wan2.5、Kling AI等自主研發的模型強勢出擊 , 不僅在技術指標上緊咬對手 , 更在開放性、成本控制、應用普惠上實現彎道超車 。
就在本月底 , Vidu Q2將重新定義「參考生視頻」 , 該功能模型即將迎來一次重大升級 。
這無疑是2025年視頻生成領域 , 最值得期待的更新之一 。
憑借更高的創作自由度、更精細的控制力、更豐富的應用 , Vidu在表情變化、推拉運鏡、生成速度 , 語義理解 , 視頻延長方面取得突破性進展 。
這場逆襲 , 再次證明了國產AI的全球競爭力——從跟跑走向領跑 , 正重塑AI版圖 。
這一次 , 我們將見證全球視頻AI「大戰」的下一個關鍵節點 。
讓我們拭目以待 。
推薦閱讀
- 揭秘全球唯一黃金版RTX 5090D!6公斤黃金 神秘大佬買走
- 全球價值最高創企誕生,OpenAI估值創紀錄來到5000億美元
- 不知不覺,中國手機芯片,已經拿下全球50%市場份額?
- 推出AI短視頻平臺,Meta在AI賽道搞“無邊界擴張”
- 拿下PC市場超1/4份額:聯想穩居全球第一!
- NovaFlow從生成視頻中提取動作流,實現零樣本操控
- 騰訊混元視覺模型躋身全球Top 3 國內排名第1
- 中國最牛的10大半導體企業,中國最頂尖,全球都排得上號
- 5.8毫米+163克!全球最輕薄驍龍8至尊旗艦狂降3500,依然沒人買
- 中國工業機器人核心部件:打破壟斷,重塑全球格局了
