從 SD 到 Wan2.5-Preview,AI 視頻 2025 質變啟示錄

從 SD 到 Wan2.5-Preview,AI 視頻 2025 質變啟示錄

作者| Cynthia
編輯| 鄭玄
全民玩梗的狂歡 , 再一次在 AI 視頻領域上演 。
最大的時代紅利 , 屬于今年四季度發布的中美兩大明星產品 , OpenAI 的 Sora 2 與阿里的 Wan2.5-Preview 。
其中 , Sora 2 的登場堪稱一場教科書級的營銷戰役 。 熟悉的邀請碼機制再次奏效 , 用戶為了獲得一個入場券除了需要購買 GPT 的會員之外 , 甚至還在二手平臺再花幾十美金購買邀請碼 。 更絕的是 , 它把自己變成了一個 AI 版抖音 , 用戶只需上傳一張照片 , 就能生成自己和奧特曼對話的魔性視頻 。 這種把用戶變成主角的設計 , 讓 Sora App 首周下載量直沖 62.7 萬次 , 甚至超過了當年的 ChatGPT 。
大洋彼岸 , Wan2.5-Preview 則以另一種方式在各大社交媒體刷屏 。 一夜之間 , 抖音、小紅書上的 AI 小貓開始集體說著「我愛媽媽」然后炒著三菜一湯等主人下班 , 畫面中的光線、格局、小貓表情細膩到令人發指之外 , 甚至炒菜的鍋氣與油煙這樣的細節也完全到位 。
可以說 , 正是這兩大模型的出現 , 讓 AI 視頻一夜之間從技術圈極客專屬推向全民熱潮 。
那么 , 這一次 AI 視頻 2025 年破圈的關鍵是什么?Wan2.5-Preview 在內的一眾最新模型做對了什么?與此同時 , 這次的 AI 視頻浪潮又會火多久?
一定程度上 , 這一波 AI 視頻模型熱潮 , 正是大模型落地從技術突破到改變世界交出的標準答案范本 。

01AI 視頻為什么又火了
Wan2.5-Preview 與 Sora 2 的爆發絕非偶然 , 而是技術積累到一定程度的必然結果 。
而要理解這次 AI 視頻的爆發 , 就得先看懂歷史上的三起兩落 。
行業的第一次爆發發生在 2022-2023 年期間 , 那時候借助 U - Net、DDPM 等經典生成架構 , DALL - E 2(OpenAI)、Midjourney、Stable Diffusion(Stability AI)、ControlNet、Gen - 2(Runway)、萬相 1.0 等模型通過以文生圖讓人們第一次看到了 AI 創作的潛力 。
但很快 , 這些模型就因為六指怪、表情呆板等問題被噴上熱搜 。 模型隨之在 2024 年前后 , 進入 Scaling 階段 , 通過采用 DiT、Flow Matching 等新技術 , 結合視覺語言模型(VLM)的圖像描述能力 , 生成更逼真的圖片 , 圖生視頻成為可能 , 這一階段 , Sora(OpenAI)、可靈 1.0/1.6、海螺 01、Flux 1.1、萬相 2.0/2.1 陸續走上臺前 。 但這一階段 , AI 生成的視頻 , 依然存在時間短、音畫不同步、無法執行復雜動作的弊病 。
直到 2025 年 , 隨著 LLM(大語言模型)與 Diffusion(擴散模型)的深度融合 , AI 視頻迎來了質的飛躍 。 通過引入視覺 CoT(思維鏈) , 模型從單純的視覺渲染轉向任務導向的智能決策 , 不僅能支持多模態交互 , 還能解決復雜的視覺 + 語言任務 。 Gemini 2.0 Flash(谷歌)、GPT - 4o 生圖(OpenAI)、可靈 2.0、Veo 3、Seedance 1.0、豆包、萬相 2.2、Nano Banana(谷歌)相繼爆火 。
四年間 , 模型千變萬化 , 但每次 AI 視覺產品的爆火的背后 , 都離不開兩大方面的進步:
門檻降低以及效果提升 。
早期以 SD 為代表的工具 , 是典型的極客專屬——CFG scale 數值要反復調試 , 數十個節點的連接邏輯能勸退 90% 的用戶;生成內容更是陰間賽博風 , 除了 P 站上粗制濫造的成人內容 , 幾乎沒人愿意盯著畫面里突然冒出兩張臉、音畫完全不同步的視頻超過一分鐘 。
反觀當下的熱門模型 , 無論是計劃做 AI 時代抖音的 Sora 2 , 還是社交媒體刷屏的 Wan2.5-Preview , 都踩中了同一個關鍵點: 高質量的同時 , 把門檻降到人人可用 。
首先是針對過去 AI 模型的賽博審丑 , Wan2.5-Preview 通過人類反饋的強化學習(RLHF)把用戶對畫面質感、動態效果、指令匹配度的反饋用于優化模型 , 徹底擺脫丑且詭異的標簽 。
而要達成以上效果 , 用戶不需要懂任何技術 , 只要能把自己腦海中的畫面 , 用一段簡單的提示詞說出來 , 就能生成栩栩如生的視頻 。
比如 , 這是一個使用 Wan2.5-Preview 生成的高贊視頻 。
提示詞:黃昏 , 逆光 , 側光 , 柔光 , 高對比度 , 中景 , 中心構圖 , 干凈的單人鏡頭 , 暖色調 。 年輕白人男子站在樹林中 , 陽光透過樹葉在他發絲上形成金色光暈 。 他穿著淺色襯衫 , 微風吹動他的頭發和衣領 , 光線隨著他的動作在臉上流動 。 背景虛化 , 遠處是斑駁的光影和柔和的樹影 , 鏡頭聚焦于他微微抬起的目光 , 眼神清澈且帶有情緒 。
視頻鏈接:
https://tongyi.aliyun.com/wan/work-detail/4ce663a31fbc4c5f859a8d8d6fbf23eb?resourceId=4ce663a31fbc4c5f859a8d8d6fbf23eb
可以看到 , 畫面中不僅人物神態動作自然 , 空氣中的塵埃 , 樹林中的光線也都十分還原 , 去掉右下角的 logo , 幾乎無法分辨是否實拍 。
在此基礎上我們再加點難度 , 畫面更復雜一點 , 主體變成有精細毛發細節的布偶貓 , 然后加入動作、神態以及抑揚頓挫的語調:
提示詞:電影感仰拍鏡頭 , 讓主體顯得很有權勢 。 在一間奢華的客廳里 , 一只雍容華貴的布 偶貓坐在一張王座般的貓爬架上 。 它用居高臨下、充滿審判意味的藍色眼睛俯視著鏡頭 。 它緩緩抬起一只毛茸茸的爪子 , 以一種極度鄙視的表情指向觀眾 , 質問說:「嗯?那我再問你 , 我生成視頻的音頻不自然嗎?回答我!Look in my eyes!Tell me why?Why baby why?」 。 戲劇性的華麗光影 , 淺景深 , 超精細的毛發細節 , 照片級真實感 。
可以看到多個升級版要求多管齊下 , 但整體畫面的質量依然沒有下降 , 甚至就連環境中的光線角度 , 光源反射細節都完美還原 。
當然 , 這種低門檻與高質量 , 只是 Wan2.5-Preview 火起來的基礎 , 在用戶體驗細節上 , Wan2.5-Preview 還做了更多的探索與嘗試 。

02如何定義體驗 ready 的視頻模型
AI 模型的技術參數再漂亮 , 最終要落地到用戶體驗上 。
過去很多 AI 工具的通病是碎片化——文生圖一個模型、文生視頻一個工具、圖生視頻又要換平臺 , 用戶為了實現一個創意 , 得在多個工具間反復切換 , 生成、調整、合成的繁瑣步驟 , 早已磨掉了創作熱情 。
更不用說 , 過去做一條電商營銷視頻 , 用戶要先找模型生成畫面 , 再用另一個工具做音頻 , 最后用第三方軟件合成 , 耗時不說 , 還容易出現音畫錯位 。 最后為了節約拍攝成本 , 不得不再招聘一個成本更高的算法工程師搭建業務的 workflow 。
seaart.ai 的案例很有代表性 。 這家 2023 年 4 月成立的公司 , 專注圖像和視頻生成 , 全球活躍用戶超 2500 萬 , 穩居 AIGC web 產品 TOP 50 。 他們采訪過一位澳大利亞理發師 , 對方從小的夢想是當畫家 , 卻為生活拿起了剪刀 。 現在他每天最開心的時刻 , 就是下班用 seaart.ai(海藝)創作——過去用畫筆無法表達的想法 , 現在用文字就能生成畫面 , 「海藝成了安放靈魂和夢想的地方」 。
之所以選擇海藝 , 正是因為海藝集成像 Wan2.5-Preview 這樣的模型 , 解決了過去 AI 視覺生成用戶體驗割裂的痛點 。
在 Wan2.5-Preview , 生成 10 秒視頻時 , 系統會自動匹配人聲、環境音效和背景音樂 , 甚至能讓小貓的口型和「我愛媽媽」的臺詞對應上 , 全程無需人工干預 。
在這背后 , 則是 Wan2.5-Preview 的統一框架設計:Wan2.5-Preview 沒有像 SD 那樣堆砌獨立模型 , 而是把文本、圖像、視頻、音頻的理解與生成裝進了同一個框架里 。 底層用文本分詞器、圖像 / 視頻編碼器、音頻編碼器分別拆解不同類型的信息;核心用多模態 Transformer 做大腦 , 實現跨模態信息的深度融合;輸出層直接支持文本、圖像、視頻、音頻的生成 , 借助多模態對齊能力 , 用戶不再需要在多個工具間切換 。
最重要的是 , 用過 AI 的人都知道 , 一次性生成滿意的內容幾乎不可能 。 但是對圖像和視頻二次編輯又往往非常困難 。 Wan2.5-Preview 在這方面做了針對性優化:
視頻上 , Wan2.5-Preview 增強了復雜指令精準執行能力:能理解運鏡語言(如推、拉、搖、移)及連續變化指令 , 無需多次調整;細節優化:強化圖生視頻的元素 ID 一致性(即生成過程中保持人物、物體等核心元素不丟失) , 同時支持通用音頻驅動視頻生成 。
在生圖上 , AI 的生圖質量今年行業基本解決 , 但是對于圖片中加文字尤其是中文這樣的需求 , 就很容易變成鬼畫符 , 更不用提生成圖表 。 Wan2.5-Preview 則不僅支持穩定生成中文、英文等文字 , 甚至能直接生成圖表;還能通過文字指令一鍵換裝、改風格 , 編輯時核心元素不會變形 。
正是這些體驗細節的打磨 , 讓海藝平臺上的用戶用 Wan2.5-Preview 生成的視頻數突破 500 萬條 , 創意的表達就像說話一樣自然 。

03技術到商業 , 如何加速
技術 ready、體驗 ready 的 AI 產品不少 , 但很多都停留在叫好不叫座的階段 。
Wan2.5-Preview 的聰明之處在于 , 它在做好產品的同時 , 也打造了一整套完善的商業化體系 。
這套完整商業化體系的最底層 , 是阿里云的算力支持 , 與模型軟硬一體形成生態護城河 。 中間層則是阿里云百煉這樣的模型開發服務平臺 , 讓用戶一鍵部署大模型不再是天方夜譚;最頂層的模型側 , 也給足了用戶選擇 。
以 Wan2.5-Preview 給為例 , 不同用戶的需求天差地別:有人只是想嘗鮮做個 5 秒短鏡頭 , 有人要做 10 秒的抖音爆款;有人追求 1080P 電影級畫質 , 有人覺得 720P 夠用就行 。
Wan2.5-Preview 選擇 , 5 秒、10 秒 , 畫質上 , 提供 480P、720P、1080P 三種選擇 , 用戶可以根據預算和用途自由切換 。
在此基礎上 , Wan2.5-Preview 沒有掩飾自己對商業化以及算清成本賬的野心 。 在最近的飛天發布時刻上 Wan2.5-Preview 正式宣布商業化 , 并給出了明確且足夠優惠的收費標準:
國內:1080P 1 元 / 秒 , 720P 0.6 元 / 秒 , 480P 0.3 元 / 秒;
海外:1080P 0.15 美元 / 秒 , 720P 0.1 美元 / 秒 , 480P 0.05 美元 / 秒 。
形成對比 , Sora 2 生成視頻需要 0.1-0.5 美元 / 秒 , 國內可靈 2.0 收費標準為 0.5 元 / 秒 , Wan2.5-Preview 屬于同等內容質量產品中 , 定價也極具吸引力的一檔 。
而這種定價方式精準擊中了不同用戶的痛點:
對短視頻團隊、廣告公司等專業用戶 , 清晰的定價能讓他們準確核算成本 , 比 SD 免費但需自己承擔服務器成本更劃算;
對普通嘗鮮用戶 , 按秒收費意味著花幾塊錢就能試玩 , 不會被高昂的套餐費嚇跑 。
建立在豐富的選擇與定價標準之上 ,通義萬相的商業生態也已經初步跑通 ,WaveSpeedAI 就是最好的案例 。
這是一家專注多模態 AI 生成的平臺型公司 , 也是全球第一個上線 Wan2.5 系列模型的平臺 。
圍繞怎么用好 Wan2.5-Preview , WaveSpeedAI 的做法很聰明:它根據用戶的價格敏感度 , 按照分辨率、生成時長、加速程度梯度收費 , 此外 , 根據模型的不同 , 提供了分層解決方案:
最低價區間:用 Wan2.2 的快速推理版本 , 滿足預算有限的用戶;
中間層:用優化后的 Wan2.2 開源模型 , 平衡成本和質量;
高端層:用 Wan2.5 的快速版和普通版 , 服務追求高質量的用戶;
在此基礎上 , WaveSpeedAI 還拓展了數字人業務 , 在對口型的基礎上 , 實現了更豐富的肢體動作和表情控制 。 目前 , WaveSpeedAI 借助 Wan2.5 生成的視頻數已突破 1000 萬條 。
以上只是個例 , 據云棲大會官宣數據 , 通義萬相家族已整合 10 多種視覺創作能力 , 累計生成 3.9 億張圖片和 7000 萬個視頻 , 成為國內主流的 AI 視覺創作工具 。

04尾聲
AI 視頻的故事遠沒到結尾 。
技術側 , 現在的模型依然有短板:內容生成時長不夠長、細節不夠細膩、長視頻的一致性問題還沒完全解決……
但不可否認的是 , 無論是 Sora 2 的 AI Tik Tok 野心 , 還是 Wan2.5-Preview 的 行業側深耕 , 都讓 AI 視覺生成跨過了技術到產品的鴻溝 。
【從 SD 到 Wan2.5-Preview,AI 視頻 2025 質變啟示錄】在這個過程中 , 技術先進固然重要 , 但能把技術變成用戶愿意用、愿意付費的產品 , 讓行業真正嘗到 SOP 縮短 , 效率增加 , 用戶體驗提升 , 才是真正的勝負手 。

    推薦閱讀