硬剛Sora2，萬相2.6輕松定制角色、控制分鏡，普通人也能當導演_sora|阿里巴巴|角色扮演

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯｜+0
2025 年即將畫上句號，回望這一年的視頻生成領域，用「突飛猛進」來形容毫不為過，甚至可以說，視頻內容創作的范式正在悄然發生改變。
9 月， OpenAI 發布的 Sora 2 憑借「客串（Cameo）」功能，打破了困擾行業已久的「角色一致性」瓶頸，首創的「角色扮演功能」玩法讓 AI 視頻從充滿不確定性的「盲盒抽卡」進化為可控的「導演游戲」。
與此同時，商業落地的速度快得驚人：在 B 端，大量 AI 短劇、漫劇上線，制作成本大幅降低；在 C 端，社交平臺上不僅有「粘土濾鏡」這樣的爆款特效，更有大量博主開始常態化使用 AI 制作劇情短片。
然而，面對這些頂尖技術，普通用戶的心情往往是「又愛又恨」。愛的是，各家 SOTA 模型生成的畫面在光影質感與物理規律上已臻化境，甚至讓人恍惚感嘆「現實與虛擬的界限已然消失」；恨的是，體驗的門檻依舊存在，要么是高不可攀的內測資格，要么是每月不菲的訂閱賬單。
前段時間，驚喜降臨。阿里千問 APP 接入了 Wan 2.5（萬相 2.5），讓我們感受到了移動端創作的自由與暢快，這種在手機上免費生成「有聲視頻」的體驗，確實很香。在權威大模型評測集 LMArena 上，萬相 2.5 的圖生視頻能力曾位居國內第一。
而這份驚喜在年底迎來了重磅加碼。 12 月 16 日，阿里趁熱打鐵，正式發布了新一代萬相 2.6 系列模型。如果說 2.5 版本是幫大家推開了視頻創作的門，那么此次面向專業影視制作和圖像創作場景全面升級的 2.6 版本，則是把專業影棚搬到了每個人面前，人人都能當電影主角或是導演。

體驗入口：https://tongyi.aliyun.com/wan/generate/video/starring-roles?model=wan2.6先看一段官方提供的視頻，電影質感爆棚。

此次發布的萬相 2.6 系列涵蓋文生視頻、圖生視頻和參考生視頻，圖像生成和文生圖共 5 款模型，是目前全球功能覆蓋最全面的視頻生成模型家族之一。它是國內首個具備聲畫一致性角色定制能力的模型，這意味著你不僅能通過「角色參考」固定住視頻中人或物的 IP 形象，還能參考輸入視頻中的音色，實現從畫面到聲音的完美復刻，無論是單人獨白還是雙人對手戲都能輕松拿捏。
更重要的是，此次發布的版本進一步提升了畫質、音效和指令遵循能力，單次視頻生成時長實現了國內最高的 15 秒（參考生視頻為 10 秒），還帶來了「分鏡控制」功能，能自動拆解并實現多鏡頭切換等專業任務，讓 AI 不再只是生成零碎的片段，而是開始懂得構建完整的故事線。目前，萬相 2.6 已同步上線阿里云百煉和萬相官網，企業用戶可直接調用 API ，千問 APP 也將于近期上線該模型。

簡單來說，阿里這次不僅把畫質拉滿了，更是把攝影師、燈光師、動作指導和錄音師打包塞進了你的手機和云端。
為了驗證萬相 2.6 是否真的這么厲害，我們決定不玩虛的，直接上手實測。
多角色聲畫同步的極限挑戰
【硬剛Sora2，萬相2.6輕松定制角色、控制分鏡，普通人也能當導演】AI 視頻最難的是什么？不是生成絢麗的畫面，而是在動態變化中保持「保真」與「一致」。
大家應該都還記得 Sora 2 發布時被瘋傳的「百變奧特曼」：山姆·奧特曼（Sam Altman）在各種場景下做炸雞、吃炒飯，雖然動作離譜，但那張臉和神態卻始終如一。現在，萬相 2.6 成了全球唯二，國內首個具備這種「參考生視頻」能力的模型。
這是面向專業影視創作的一次全面升級。全新的視頻參考生成功能，允許將任意人或物設定為主角，不僅能一鍵完成單人、多人、人與物合拍的視頻，還能在多鏡頭絲滑切換的過程中保持核心主體、場景布局和環境氛圍的統一。

從技術層面解析，通義萬相在模型結構上集成了多項創新技術，可對輸入參考視頻進行多模態聯合建模與學習。它不僅能參考具有時序信息的主體情緒、姿態和多角度全面視覺特征，更能同時提取音色、語速等聲學特征，在生成階段作為參考條件控制，實現從視覺到聽覺的全感官、全維度一致性遷移。
而「分鏡控制」則面向專業敘事場景，模型通過高層語義理解，將用戶簡單的提示詞轉換為多分鏡腳本，生成包含多個鏡頭的連貫敘事視頻，確保全片在內容、節奏和氛圍上的高一致性。

為了驗證這一能力，我們直接上傳了奧特曼、哈薩比斯和黃仁勛的過往視頻片段作為參考素材。萬相 2.6 能夠精準提取視頻中主體的形象特征、聲音聲線乃至慣用神態，并允許我們通過提示詞將他們「傳送」進全新的劇情中。

這一次，我們讓這三位科技圈頂流在一個極具電影質感的平行宇宙里，來了一場關于 GPT-5.2 和 Gemini 3 的「現場互懟」。我們在對話框中輸入設定臺詞和畫面，分多次生成最后拼接畫面。話不多說，直接來看正片：

英文版完美復刻了他們原本的聲線與語調，效果令人咋舌。
為了讓大家更直觀地感受音頻生成的實力，我們再看一個中文配音版，雖然語種跨越增加了難度，音頻效果略遜色于英文版，但依然不僅形似，更是神似。

仔細觀察三位主角的眉眼微表情、肢體語言乃至習慣性動作，還原度極高，幾位「AI 演員」可以說是演技滿滿。 Sam 從首日身體后仰的「跑分王」傲慢，到次日瘋狂刷屏時的眼神閃爍、戰術喝水，情緒轉折絲滑流暢；Demis 那股從緊張防御到端著咖啡「貼臉開大」的戲謔笑意，簡直靈魂附體。當然，最絕的還得是「皮衣教主」黃仁勛，那仰天大笑的一攤手，仿佛直接穿透屏幕在說：「爭什么爭？最后不都得靠我？」
為了方便大家復刻同款大片，官方貼心提供了兩套核心提示詞模板：
針對「參考生視頻」，模型支持人物、萌寵或道具等任意類型主角（最多 3 個），并能完美復刻其外觀、動態及音色。只需套用公式「@主角 + 動作 + 臺詞 + 場景」：通過 @ 符號精準引用參考素材，描述動作情緒、臺詞內容及所處環境即可。例如：在一個童話場景中， @A（參考視頻為兔子）在草地玩耍， @B（參考視頻為狗）在樹下彈琴被蘋果砸中， @A 開心地說：「你要變成科學家了！」
而在「多鏡頭敘事」方面，萬相 2.6 能將原始輸入構建為具備敘事張力的專業級多鏡頭段落。無論是啟用智能多鏡還是手動精控，推薦使用公式「總體描述 + 鏡頭序號 + 時間戳 + 分鏡內容」。先概括故事主題與基調，再通過時間戳（如 [0-3 秒
）劃分結構，詳細描述每個分鏡的運鏡與表演。例如：講述一個重拾希望的短劇。第 1 鏡頭 [0-3 秒
男孩看著信紙嘆氣；第 2 鏡頭 [3-5 秒
特寫眼角淚光；第 3 鏡頭 [5-10 秒
場景切換，女孩微笑著走近安慰他。
當 AI 擁有了長敘事能力與「演技」
短視頻時代，能不能火全看「梗」和「戲」，面向廣告設計、短劇制作等專業場景，萬相 2.6 展現出了驚人的潛力。通過輸入連續提示詞，它能生成一段完整敘事的短片，讓人人都能當導演。下面我們測試一下它在細節把控和情緒表達上的「演技」。
為了驗證模型在極端條件下的細節把控能力，我們嘗試了一組高難度的特寫鏡頭測試。
提示詞：日式電影感，中近景：26 歲亞洲女性，黑色齊肩短發，清淡妝容，戴銀邊細框眼鏡，穿著米白色寬松針織毛衣。她站在溫馨昏黃的廚房里，手里端著一碗剛煮好的米線。特寫鏡頭：碗中升騰起濃郁的白色蒸汽，熱氣瞬間撲在她的臉上，熏白了她的眼鏡片，形成一層白霧。她微微一愣，透過模糊的鏡片眨了眨眼，表情呆萌而治愈，背景是虛化的充滿生活氣息的冰箱和櫥柜。

畫面聚焦于一位剛下班的都市女性，她端著一碗熱氣騰騰的面條準備享用。令人驚嘆的是，當熱氣上涌，水霧瞬間在她的眼鏡鏡片上凝結成一層細密而真實的白霜，視野的模糊與清晰交界處處理得極其自然，光影在水霧上的折射顯得通透而生動。
在如此近距離的微距鏡頭審視下，人物皮膚細節展現出了電影級的高保真度：鼻翼兩側因熱氣熏蒸而泛起的微紅、眼角極其細微的疲憊干紋，甚至是皮膚未施粉黛的細膩顆粒感和毛孔的「呼吸感」，都被完美捕捉和呈現，完全打破了以往 AI 生成人物常見的「塑料感」。
更絕妙的是人物的神態動作，當眼鏡被蒙住的瞬間，她下意識地瞇起眼睛，鼻頭輕微皺縮，嘴角卻又不自覺地掛著即將被美食治愈的滿足笑意。
我們進一步嘗試讓「大宋第一狠人」蘇軾穿越回來，錄制「敬自己一杯」的 Vlog 。
我們只需給模型設定一個首幀，輸入提示詞，模型就能快速完成分鏡設計、角色演繹和畫面配音。

提示詞： (蘇東坡舉著酒杯，滿臉通紅，微醺狀態) 第三杯！敬我的「大宋窮游指南」！皇帝把我貶到黃州，我發明了東坡肉；把我貶到惠州，我日啖荔枝三百顆；最后把我扔到海南島（當時那是未開化之地），以為我會哭死？不好意思，我發現那邊的生蠔真的太好吃了，還寫信讓兒子別告訴別人，怕朝廷那幫人跑來跟我搶。把流放活成《舌尖上的中國》，就問你服不服！喝！
來看看效果如何：

可以看到，視頻不僅高度還原了我們設定的視覺風格，更在細節上經得起推敲：聲畫同步率極高，面部微表情隨著臺詞層層遞進。模型展現出了類似專業導演的運鏡意識，通過推拉搖移和景深變化有效掌控了敘事節奏。視頻中的蘇軾全程以一種舉重若輕的姿態講述跌宕人生，既重現了「一蓑煙雨任平生」的豪邁豁達，又精準拿捏了「微醺吐槽」時的詼諧與松弛，感染力十足。
不容忽視的平面「基本功」
在大家的目光都被視頻生成的「演技」吸引時，萬相 2.6 在靜態圖像生成領域也悄然完成了版本迭代。對于一個多模態大模型而言，高質量的平面圖像生成能力依然是其重要的「基本功」。
此次 2.6 版本的圖像生成能力升級，主要體現在對畫面細節的控制力和實用場景的覆蓋，可以說是在「高美學」與「強可控」上同時邁出了一大步。
在基礎的文生圖方面，新模型實現了對藝術風格的「靈魂捕捉」。從提供的測試案例來看，模型對「肌理、色彩、筆觸」等細節的刻畫更為到位。無論是需要特定筆觸感的東方水墨、拉斐爾藝術風格，還是偏向現代設計的數字插圖、毛氈卡通風格，模型都能精準還原。更有趣的是它的「風格融合」能力，比如將「印象派」與「涂鴉」結合，模型能處理得過渡平滑且自然，創作出獨具一格的視覺作品。

針對容易「翻車」的人物寫實照片， 2.6 版本綜合優化了構圖與光影，在一定程度上削弱了以往常見的「AI 塑料感」。實測中，人物神態更加自然，膚質真實感大幅提升，即便是復雜的環境情緒攝影，也能呈現出極具表現力的光影細節。

更具實用價值的是其在復雜排版和精準控制方面的提升。新版本改善了在圖片中生成中英文文本的能力，這意味著制作帶文字的海報、帶有數據信息的圖表變得更加直接。同時，模型不僅涵蓋了廣泛的歷史文化 IP 元素，還新增了諸如「圖文混排輸出」和「多圖融合生成」等功能，能夠依據邏輯創作出具有敘事性的繪本或復雜的商品組合場景。

對于有特定需求的設計或商業場景，萬相 2.6 提供了更細致的控制選項。例如，在需要保持商品或角色形象統一時，它提供了商用級的一致性保持能力；在調整畫面氛圍時，用戶可以更精確地控制鏡頭的遠近視角和光影效果。

提示詞：給這個男生和狗拍一張寫真，男生摟著這只狗，人和狗都很開心，攝影棚柔和燈光，藍色紋理背景。
如果說視頻生成是在探索 AI 動態表達的上限，那么圖像生成板塊的更新，則是在夯實 AI 平面創作的地基，提供了一套更為穩健、多樣的工具集。目前，萬相模型家族已支持文生圖、圖像編輯、文生視頻、圖生視頻、人聲生視頻、動作生成、角色扮演及通用視頻編輯等 10 多種視覺創作能力，已廣泛應用于 AI 漫劇、廣告設計和短視頻創作等領域。
結語
萬相 2.6 的發布，某種程度上標志著 AI 視頻生成正式告別了單純的「抽卡」時代，邁向了精準可控的電影級創作新階段。
過去，我們驚嘆于 AI 的畫質，卻苦惱于它的不可控。而現在，萬相 2.6 用國內首創的角色扮演功能讓「演員」聽話懂戲，不僅能鎖住容貌，更能演繹情緒；用智能分鏡控制讓敘事有了邏輯，從單點畫面進化為連貫的故事篇章。它將曾經昂貴的影視工業特權，折疊進了手機和云端，徹底消除了技術對創意的阻隔。
當燈光、攝影、演員和剪輯都聽命于你的指尖，技術不再是門檻。無論是想做一部「賽博大片」，還是只想發一條朋友圈惡搞 Vlog ，都能找到順手的工具。
門檻已經塌陷，工具就在手邊。從此刻起，你的想象力，就是你的生產力。
體驗鏈接：
萬相官網：https://tongyi.aliyun.com/wan/ 阿里云百煉 API：https://bailian.console.aliyun.com/?tab=model#/model-market/all?providers=wan文中視頻鏈接：https://mp.weixin.qq.com/s/tgVN9ByxXn5NKDX8bArcgw

硬剛Sora2，萬相2.6輕松定制角色、控制分鏡，普通人也能當導演

推薦閱讀

清算報告需要注明的內容有哪一些

惻隱之心仁之端也啥意思

無糖糖漿是什么東西

吃荷蘭豆的好處有哪些荷蘭豆多吃有什么壞處

oppoa95怎么關閉usb調試

艾爾登法環阿根廷區漲價了嗎阿根廷漲價分享

支付寶68元消費券怎么領

海棠花秋季的養殖方法

cs1.5怎么加人機器人快捷鍵

聚乙烯粉料潮濕易交聯嗎

兩個小故事，與生活攜手的文章，直面世俗一角

中國南方與北方具體分界線是怎樣的在供暖問題上，對南方不供暖的介定好象不合理

政府如何彌補市場缺陷,如何彌補市場不足

分享蘋果8p掉幀的具體處理方法。

釣2050斤的魚用什么主線和子線，釣鯉魚用幾號線組

紅瑰寶是紅木嗎