硬剛Sora2,萬相2.6輕松定制角色、控制分鏡,普通人也能當導演

硬剛Sora2,萬相2.6輕松定制角色、控制分鏡,普通人也能當導演

文章圖片

硬剛Sora2,萬相2.6輕松定制角色、控制分鏡,普通人也能當導演

文章圖片

硬剛Sora2,萬相2.6輕松定制角色、控制分鏡,普通人也能當導演

文章圖片

硬剛Sora2,萬相2.6輕松定制角色、控制分鏡,普通人也能當導演

文章圖片

硬剛Sora2,萬相2.6輕松定制角色、控制分鏡,普通人也能當導演

文章圖片

硬剛Sora2,萬相2.6輕松定制角色、控制分鏡,普通人也能當導演

文章圖片

硬剛Sora2,萬相2.6輕松定制角色、控制分鏡,普通人也能當導演

文章圖片

硬剛Sora2,萬相2.6輕松定制角色、控制分鏡,普通人也能當導演

文章圖片



編輯|+0
2025 年即將畫上句號 , 回望這一年的視頻生成領域 , 用「突飛猛進」來形容毫不為過 , 甚至可以說 , 視頻內容創作的范式正在悄然發生改變 。
9 月 , OpenAI 發布的 Sora 2 憑借「客串(Cameo)」功能 , 打破了困擾行業已久的「角色一致性」瓶頸 , 首創的「角色扮演功能」玩法讓 AI 視頻從充滿不確定性的「盲盒抽卡」進化為可控的「導演游戲」 。
與此同時 , 商業落地的速度快得驚人:在 B 端 , 大量 AI 短劇、漫劇上線 , 制作成本大幅降低;在 C 端 , 社交平臺上不僅有「粘土濾鏡」這樣的爆款特效 , 更有大量博主開始常態化使用 AI 制作劇情短片 。
然而 , 面對這些頂尖技術 , 普通用戶的心情往往是「又愛又恨」 。 愛的是 , 各家 SOTA 模型生成的畫面在光影質感與物理規律上已臻化境 , 甚至讓人恍惚感嘆「現實與虛擬的界限已然消失」;恨的是 , 體驗的門檻依舊存在 , 要么是高不可攀的內測資格 , 要么是每月不菲的訂閱賬單 。
前段時間 , 驚喜降臨 。 阿里千問 APP 接入了 Wan 2.5(萬相 2.5) , 讓我們感受到了移動端創作的自由與暢快 , 這種在手機上免費生成「有聲視頻」的體驗 , 確實很香 。 在權威大模型評測集 LMArena 上 , 萬相 2.5 的圖生視頻能力曾位居國內第一 。
而這份驚喜在年底迎來了重磅加碼 。 12 月 16 日 , 阿里趁熱打鐵 , 正式發布了新一代萬相 2.6 系列模型 。 如果說 2.5 版本是幫大家推開了視頻創作的門 , 那么此次面向專業影視制作和圖像創作場景全面升級的 2.6 版本 , 則是把專業影棚搬到了每個人面前 , 人人都能當電影主角或是導演 。

體驗入口:https://tongyi.aliyun.com/wan/generate/video/starring-roles?model=wan2.6先看一段官方提供的視頻 , 電影質感爆棚 。

此次發布的萬相 2.6 系列涵蓋文生視頻、圖生視頻和參考生視頻 , 圖像生成和文生圖共 5 款模型 , 是目前全球功能覆蓋最全面的視頻生成模型家族之一 。 它是國內首個具備聲畫一致性角色定制能力的模型 , 這意味著你不僅能通過「角色參考」固定住視頻中人或物的 IP 形象 , 還能參考輸入視頻中的音色 , 實現從畫面到聲音的完美復刻 , 無論是單人獨白還是雙人對手戲都能輕松拿捏 。
更重要的是 , 此次發布的版本進一步提升了畫質、音效和指令遵循能力 , 單次視頻生成時長實現了國內最高的 15 秒(參考生視頻為 10 秒) , 還帶來了「分鏡控制」功能 , 能自動拆解并實現多鏡頭切換等專業任務 , 讓 AI 不再只是生成零碎的片段 , 而是開始懂得構建完整的故事線 。 目前 , 萬相 2.6 已同步上線阿里云百煉和萬相官網 , 企業用戶可直接調用 API , 千問 APP 也將于近期上線該模型 。

簡單來說 , 阿里這次不僅把畫質拉滿了 , 更是把攝影師、燈光師、動作指導和錄音師打包塞進了你的手機和云端 。
為了驗證萬相 2.6 是否真的這么厲害 , 我們決定不玩虛的 , 直接上手實測 。
多角色聲畫同步的極限挑戰
【硬剛Sora2,萬相2.6輕松定制角色、控制分鏡,普通人也能當導演】AI 視頻最難的是什么?不是生成絢麗的畫面 , 而是在動態變化中保持「保真」與「一致」 。
大家應該都還記得 Sora 2 發布時被瘋傳的「百變奧特曼」:山姆·奧特曼(Sam Altman)在各種場景下做炸雞、吃炒飯 , 雖然動作離譜 , 但那張臉和神態卻始終如一 。 現在 , 萬相 2.6 成了全球唯二 , 國內首個具備這種「參考生視頻」能力的模型 。
這是面向專業影視創作的一次全面升級 。 全新的視頻參考生成功能 , 允許將任意人或物設定為主角 , 不僅能一鍵完成單人、多人、人與物合拍的視頻 , 還能在多鏡頭絲滑切換的過程中保持核心主體、場景布局和環境氛圍的統一 。

從技術層面解析 , 通義萬相在模型結構上集成了多項創新技術 , 可對輸入參考視頻進行多模態聯合建模與學習 。 它不僅能參考具有時序信息的主體情緒、姿態和多角度全面視覺特征 , 更能同時提取音色、語速等聲學特征 , 在生成階段作為參考條件控制 , 實現從視覺到聽覺的全感官、全維度一致性遷移 。
而「分鏡控制」則面向專業敘事場景 , 模型通過高層語義理解 , 將用戶簡單的提示詞轉換為多分鏡腳本 , 生成包含多個鏡頭的連貫敘事視頻 , 確保全片在內容、節奏和氛圍上的高一致性 。

為了驗證這一能力 , 我們直接上傳了奧特曼、哈薩比斯和黃仁勛的過往視頻片段作為參考素材 。 萬相 2.6 能夠精準提取視頻中主體的形象特征、聲音聲線乃至慣用神態 , 并允許我們通過提示詞將他們「傳送」進全新的劇情中 。

這一次 , 我們讓這三位科技圈頂流在一個極具電影質感的平行宇宙里 , 來了一場關于 GPT-5.2 和 Gemini 3 的「現場互懟」 。 我們在對話框中輸入設定臺詞和畫面 , 分多次生成最后拼接畫面 。 話不多說 , 直接來看正片:

英文版完美復刻了他們原本的聲線與語調 , 效果令人咋舌 。
為了讓大家更直觀地感受音頻生成的實力 , 我們再看一個中文配音版 , 雖然語種跨越增加了難度 , 音頻效果略遜色于英文版 , 但依然不僅形似 , 更是神似 。

仔細觀察三位主角的眉眼微表情、肢體語言乃至習慣性動作 , 還原度極高 , 幾位「AI 演員」可以說是演技滿滿 。 Sam 從首日身體后仰的「跑分王」傲慢 , 到次日瘋狂刷屏時的眼神閃爍、戰術喝水 , 情緒轉折絲滑流暢;Demis 那股從緊張防御到端著咖啡「貼臉開大」的戲謔笑意 , 簡直靈魂附體 。 當然 , 最絕的還得是「皮衣教主」黃仁勛 , 那仰天大笑的一攤手 , 仿佛直接穿透屏幕在說:「爭什么爭?最后不都得靠我?」
為了方便大家復刻同款大片 , 官方貼心提供了兩套核心提示詞模板:
針對「參考生視頻」 , 模型支持人物、萌寵或道具等任意類型主角(最多 3 個) , 并能完美復刻其外觀、動態及音色 。 只需套用公式「@主角 + 動作 + 臺詞 + 場景」:通過 @ 符號精準引用參考素材 , 描述動作情緒、臺詞內容及所處環境即可 。 例如:在一個童話場景中 , @A(參考視頻為兔子)在草地玩耍 , @B(參考視頻為狗)在樹下彈琴被蘋果砸中 , @A 開心地說:「你要變成科學家了!」
而在「多鏡頭敘事」方面 , 萬相 2.6 能將原始輸入構建為具備敘事張力的專業級多鏡頭段落 。 無論是啟用智能多鏡還是手動精控 , 推薦使用公式「總體描述 + 鏡頭序號 + 時間戳 + 分鏡內容」 。 先概括故事主題與基調 , 再通過時間戳(如 [0-3 秒
)劃分結構 , 詳細描述每個分鏡的運鏡與表演 。 例如:講述一個重拾希望的短劇 。 第 1 鏡頭 [0-3 秒
男孩看著信紙嘆氣;第 2 鏡頭 [3-5 秒
特寫眼角淚光;第 3 鏡頭 [5-10 秒
場景切換 , 女孩微笑著走近安慰他 。
當 AI 擁有了長敘事能力與「演技」
短視頻時代 , 能不能火全看「梗」和「戲」 , 面向廣告設計、短劇制作等專業場景 , 萬相 2.6 展現出了驚人的潛力 。 通過輸入連續提示詞 , 它能生成一段完整敘事的短片 , 讓人人都能當導演 。 下面我們測試一下它在細節把控和情緒表達上的「演技」 。
為了驗證模型在極端條件下的細節把控能力 , 我們嘗試了一組高難度的特寫鏡頭測試 。
提示詞:日式電影感 , 中近景:26 歲亞洲女性 , 黑色齊肩短發 , 清淡妝容 , 戴銀邊細框眼鏡 , 穿著米白色寬松針織毛衣 。 她站在溫馨昏黃的廚房里 , 手里端著一碗剛煮好的米線 。 特寫鏡頭:碗中升騰起濃郁的白色蒸汽 , 熱氣瞬間撲在她的臉上 , 熏白了她的眼鏡片 , 形成一層白霧 。 她微微一愣 , 透過模糊的鏡片眨了眨眼 , 表情呆萌而治愈 , 背景是虛化的充滿生活氣息的冰箱和櫥柜 。

畫面聚焦于一位剛下班的都市女性 , 她端著一碗熱氣騰騰的面條準備享用 。 令人驚嘆的是 , 當熱氣上涌 , 水霧瞬間在她的眼鏡鏡片上凝結成一層細密而真實的白霜 , 視野的模糊與清晰交界處處理得極其自然 , 光影在水霧上的折射顯得通透而生動 。
在如此近距離的微距鏡頭審視下 , 人物皮膚細節展現出了電影級的高保真度:鼻翼兩側因熱氣熏蒸而泛起的微紅、眼角極其細微的疲憊干紋 , 甚至是皮膚未施粉黛的細膩顆粒感和毛孔的「呼吸感」 , 都被完美捕捉和呈現 , 完全打破了以往 AI 生成人物常見的「塑料感」 。
更絕妙的是人物的神態動作 , 當眼鏡被蒙住的瞬間 , 她下意識地瞇起眼睛 , 鼻頭輕微皺縮 , 嘴角卻又不自覺地掛著即將被美食治愈的滿足笑意 。
我們進一步嘗試讓「大宋第一狠人」蘇軾穿越回來 , 錄制「敬自己一杯」的 Vlog 。
我們只需給模型設定一個首幀 , 輸入提示詞 , 模型就能快速完成分鏡設計、角色演繹和畫面配音 。

提示詞: (蘇東坡舉著酒杯 , 滿臉通紅 , 微醺狀態) 第三杯!敬我的「大宋窮游指南」!皇帝把我貶到黃州 , 我發明了東坡肉;把我貶到惠州 , 我日啖荔枝三百顆;最后把我扔到海南島(當時那是未開化之地) , 以為我會哭死?不好意思 , 我發現那邊的生蠔真的太好吃了 , 還寫信讓兒子別告訴別人 , 怕朝廷那幫人跑來跟我搶 。 把流放活成《舌尖上的中國》 , 就問你服不服!喝!
來看看效果如何:

可以看到 , 視頻不僅高度還原了我們設定的視覺風格 , 更在細節上經得起推敲:聲畫同步率極高 , 面部微表情隨著臺詞層層遞進 。 模型展現出了類似專業導演的運鏡意識 , 通過推拉搖移和景深變化有效掌控了敘事節奏 。 視頻中的蘇軾全程以一種舉重若輕的姿態講述跌宕人生 , 既重現了「一蓑煙雨任平生」的豪邁豁達 , 又精準拿捏了「微醺吐槽」時的詼諧與松弛 , 感染力十足 。
不容忽視的平面「基本功」
在大家的目光都被視頻生成的「演技」吸引時 , 萬相 2.6 在靜態圖像生成領域也悄然完成了版本迭代 。 對于一個多模態大模型而言 , 高質量的平面圖像生成能力依然是其重要的「基本功」 。
此次 2.6 版本的圖像生成能力升級 , 主要體現在對畫面細節的控制力和實用場景的覆蓋 , 可以說是在「高美學」與「強可控」上同時邁出了一大步 。
在基礎的文生圖方面 , 新模型實現了對藝術風格的「靈魂捕捉」 。 從提供的測試案例來看 , 模型對「肌理、色彩、筆觸」等細節的刻畫更為到位 。 無論是需要特定筆觸感的東方水墨、拉斐爾藝術風格 , 還是偏向現代設計的數字插圖、毛氈卡通風格 , 模型都能精準還原 。 更有趣的是它的「風格融合」能力 , 比如將「印象派」與「涂鴉」結合 , 模型能處理得過渡平滑且自然 , 創作出獨具一格的視覺作品 。

針對容易「翻車」的人物寫實照片 , 2.6 版本綜合優化了構圖與光影 , 在一定程度上削弱了以往常見的「AI 塑料感」 。 實測中 , 人物神態更加自然 , 膚質真實感大幅提升 , 即便是復雜的環境情緒攝影 , 也能呈現出極具表現力的光影細節 。

更具實用價值的是其在復雜排版和精準控制方面的提升 。 新版本改善了在圖片中生成中英文文本的能力 , 這意味著制作帶文字的海報、帶有數據信息的圖表變得更加直接 。 同時 , 模型不僅涵蓋了廣泛的歷史文化 IP 元素 , 還新增了諸如「圖文混排輸出」和「多圖融合生成」等功能 , 能夠依據邏輯創作出具有敘事性的繪本或復雜的商品組合場景 。

對于有特定需求的設計或商業場景 , 萬相 2.6 提供了更細致的控制選項 。 例如 , 在需要保持商品或角色形象統一時 , 它提供了商用級的一致性保持能力;在調整畫面氛圍時 , 用戶可以更精確地控制鏡頭的遠近視角和光影效果 。

提示詞:給這個男生和狗拍一張寫真 , 男生摟著這只狗 , 人和狗都很開心 , 攝影棚柔和燈光 , 藍色紋理背景 。
如果說視頻生成是在探索 AI 動態表達的上限 , 那么圖像生成板塊的更新 , 則是在夯實 AI 平面創作的地基 , 提供了一套更為穩健、多樣的工具集 。 目前 , 萬相模型家族已支持文生圖、圖像編輯、文生視頻、圖生視頻、人聲生視頻、動作生成、角色扮演及通用視頻編輯等 10 多種視覺創作能力 , 已廣泛應用于 AI 漫劇、廣告設計和短視頻創作等領域 。
結語
萬相 2.6 的發布 , 某種程度上標志著 AI 視頻生成正式告別了單純的「抽卡」時代 , 邁向了精準可控的電影級創作新階段 。
過去 , 我們驚嘆于 AI 的畫質 , 卻苦惱于它的不可控 。 而現在 , 萬相 2.6 用國內首創的角色扮演功能讓「演員」聽話懂戲 , 不僅能鎖住容貌 , 更能演繹情緒;用智能分鏡控制讓敘事有了邏輯 , 從單點畫面進化為連貫的故事篇章 。 它將曾經昂貴的影視工業特權 , 折疊進了手機和云端 , 徹底消除了技術對創意的阻隔 。
當燈光、攝影、演員和剪輯都聽命于你的指尖 , 技術不再是門檻 。 無論是想做一部「賽博大片」 , 還是只想發一條朋友圈惡搞 Vlog , 都能找到順手的工具 。
門檻已經塌陷 , 工具就在手邊 。 從此刻起 , 你的想象力 , 就是你的生產力 。
體驗鏈接:
萬相官網:https://tongyi.aliyun.com/wan/ 阿里云百煉 API:https://bailian.console.aliyun.com/?tab=model#/model-market/all?providers=wan文中視頻鏈接:https://mp.weixin.qq.com/s/tgVN9ByxXn5NKDX8bArcgw

    推薦閱讀