阿里開源通義萬相2.2,首創電影級美學控制系統

阿里開源通義萬相2.2,首創電影級美學控制系統

文章圖片


7月28日晚 , 繼上周阿里AI三連發后 , 阿里又扔出新的開源模型 , 電影級視頻生成模型通義萬相Wan2.2 。 Wan2.2直接將光影、色彩、鏡頭語言三大電影美學元素裝進模型 , 可以隨意組合60多個直觀可控的參數 , 大幅提升電影級畫面的制作效率 。



通義萬相官方展示了《星際穿越》、《布達佩斯大飯店》、《海上鋼琴師》等電影的經典畫面 , 向影視經典致敬 , 目前該模型單次可生成5s的高清視頻 , 用戶可通過多輪提示詞進一步完成短劇制作 , 未來通義萬相還將繼續提升單次視頻生成的時長 , 讓視頻創作更高效 。
【阿里開源通義萬相2.2,首創電影級美學控制系統】據介紹 , Wan2.2此次共開源文生視頻(Wan2.2-T2V-A14B)、圖生視頻(Wan2.2-I2V-A14B)和統一視頻生成(Wan2.2-TI2V-5B)三款模型 , 其中文生視頻模型和圖生視頻模型均為業界首個使用MoE架構的視頻生成模型 , 總參數量為27B , 激活參數14B , 均由高噪聲專家模型和低噪專家模型組成 , 分別負責視頻的整體布局和細節完善 , 在同參數規模下 , 可節省約50%的計算資源消耗 , 有效解決視頻生成處理Token過長導致的計算資源消耗大問題 , 同時在復雜運動生成、人物交互、美學表達、復雜運動等維度上也取得了顯著提升 。
Wan2.2還首創了電影美學控制系統 , 光影、色彩、構圖、微表情等能力媲美專業電影水平 。 例如 , 用戶輸入「黃昏」、「柔光」、「邊緣光」、「暖色調」「中心構圖」等關鍵詞 , 模型可自動生成金色的落日余暉的浪漫畫面;使用「冷色調」、「硬光」、「平衡圖」、「低角度」的組合 , 則可以生成接近科幻片的畫面效果 。
輸入提示詞:視頻展示了一位三十多歲的黑人女性在黃昏色調的復古濾鏡下 , 平靜地坐在行駛中的地鐵車廂內 。 周圍人群來回走動 , 形成明顯的運動模糊 , 而她始終保持清晰 , 象征著混亂中的靜止 。 柔和的光線與電影畫質營造出喜怒無常的環境氛圍 , 突顯她在喧囂世界中的沉穩與內斂 , 呈現出強烈的現實主義風格 。 通義萬相即可精準理解提示詞中的美學詞 , 并生成一段復古且富有文藝感的視頻 。



輸入提示詞:白天 , 晴天光 , 邊緣光 , 暖色調 , 低飽和度 , 極端全景 , 平衡構圖 , 畫面中有兩名穿著宇航服的人 , 他們正站在一片廣闊的水域中 。 他們都穿著白色為主、帶有深色拼接和標記的厚重宇航服 , 并頭戴配有面罩的頭盔 。 位于前方的人正朝著觀看者的方向涉水前行 , 水面淹及他的大腿 , 他的面部表情嚴肅 。 另一人站在他身后稍遠的位置 , 同樣身處水中 。 在他們身后 , 一艘外形具有未來感的飛行器停泊在水面上 。 這艘飛行器有著扁平、寬大的機翼和棱角分明的設計 。 整個場景的背景是布滿云彩的天空和無邊無際的水面 。 通義萬相可生成一段復刻電影《星際穿越》中宇航員在米勒星球的經典畫面 。
通義萬相還開源了一款5B小尺寸的統一視頻生成模型 , 單一模型同時支持文生視頻和圖生視頻 , 可在消費級顯卡部署 。 該模型采用了高壓縮率3D VAE架構 , 時間與空間壓縮比達到高達 4×16×16 , 信息壓縮率提升至 64 , 均實現了開源模型的最高水平 , 僅需22G顯存(單張消費級顯卡)即可在數分鐘內生成5秒高清視頻 , 是目前24幀每秒、720P像素級視頻生成速度最快的基礎模型之一 。
即日起 , 開發者可在GitHub、HuggingFace、魔搭社區下載模型和代碼 , 企業可在阿里云百煉調用模型API , 用戶還可在通義萬相官網和通義APP直接體驗 。
自今年2月以來 , 通義萬相已連續開源文生視頻、圖生視頻、首尾幀生視頻和全能編輯等多款模型 , 在開源社區的下載量已超500萬 , 是開源社區最受歡迎的視頻生成模型之一 。

    推薦閱讀