從 SD 到 Wan2.5-Preview，AI 視頻 2025 質變啟示錄

2026-01-09 數字政通

作者｜ Cynthia
編輯｜鄭玄
全民玩梗的狂歡，再一次在 AI 視頻領域上演。
最大的時代紅利，屬于今年四季度發布的中美兩大明星產品， OpenAI 的 Sora 2 與阿里的 Wan2.5-Preview 。
其中， Sora 2 的登場堪稱一場教科書級的營銷戰役。熟悉的邀請碼機制再次奏效，用戶為了獲得一個入場券除了需要購買 GPT 的會員之外，甚至還在二手平臺再花幾十美金購買邀請碼。更絕的是，它把自己變成了一個 AI 版抖音，用戶只需上傳一張照片，就能生成自己和奧特曼對話的魔性視頻。這種把用戶變成主角的設計，讓 Sora App 首周下載量直沖 62.7 萬次，甚至超過了當年的 ChatGPT 。
大洋彼岸， Wan2.5-Preview 則以另一種方式在各大社交媒體刷屏。一夜之間，抖音、小紅書上的 AI 小貓開始集體說著「我愛媽媽」然后炒著三菜一湯等主人下班，畫面中的光線、格局、小貓表情細膩到令人發指之外，甚至炒菜的鍋氣與油煙這樣的細節也完全到位。
可以說，正是這兩大模型的出現，讓 AI 視頻一夜之間從技術圈極客專屬推向全民熱潮。
那么，這一次 AI 視頻 2025 年破圈的關鍵是什么？Wan2.5-Preview 在內的一眾最新模型做對了什么？與此同時，這次的 AI 視頻浪潮又會火多久？
一定程度上，這一波 AI 視頻模型熱潮，正是大模型落地從技術突破到改變世界交出的標準答案范本。

01AI 視頻為什么又火了
Wan2.5-Preview 與 Sora 2 的爆發絕非偶然，而是技術積累到一定程度的必然結果。
而要理解這次 AI 視頻的爆發，就得先看懂歷史上的三起兩落。
行業的第一次爆發發生在 2022-2023 年期間，那時候借助 U - Net、DDPM 等經典生成架構， DALL - E 2（OpenAI）、Midjourney、Stable Diffusion（Stability AI）、ControlNet、Gen - 2（Runway）、萬相 1.0 等模型通過以文生圖讓人們第一次看到了 AI 創作的潛力。
但很快，這些模型就因為六指怪、表情呆板等問題被噴上熱搜。模型隨之在 2024 年前后，進入 Scaling 階段，通過采用 DiT、Flow Matching 等新技術，結合視覺語言模型（VLM）的圖像描述能力，生成更逼真的圖片，圖生視頻成為可能，這一階段， Sora（OpenAI）、可靈 1.0/1.6、海螺 01、Flux 1.1、萬相 2.0/2.1 陸續走上臺前。但這一階段， AI 生成的視頻，依然存在時間短、音畫不同步、無法執行復雜動作的弊病。
直到 2025 年，隨著 LLM（大語言模型）與 Diffusion（擴散模型）的深度融合， AI 視頻迎來了質的飛躍。通過引入視覺 CoT（思維鏈），模型從單純的視覺渲染轉向任務導向的智能決策，不僅能支持多模態交互，還能解決復雜的視覺 + 語言任務。 Gemini 2.0 Flash（谷歌）、GPT - 4o 生圖（OpenAI）、可靈 2.0、Veo 3、Seedance 1.0、豆包、萬相 2.2、Nano Banana（谷歌）相繼爆火。
四年間，模型千變萬化，但每次 AI 視覺產品的爆火的背后，都離不開兩大方面的進步：
門檻降低以及效果提升。
早期以 SD 為代表的工具，是典型的極客專屬——CFG scale 數值要反復調試，數十個節點的連接邏輯能勸退 90% 的用戶；生成內容更是陰間賽博風，除了 P 站上粗制濫造的成人內容，幾乎沒人愿意盯著畫面里突然冒出兩張臉、音畫完全不同步的視頻超過一分鐘。
反觀當下的熱門模型，無論是計劃做 AI 時代抖音的 Sora 2 ，還是社交媒體刷屏的 Wan2.5-Preview ，都踩中了同一個關鍵點：高質量的同時，把門檻降到人人可用。
首先是針對過去 AI 模型的賽博審丑， Wan2.5-Preview 通過人類反饋的強化學習（RLHF）把用戶對畫面質感、動態效果、指令匹配度的反饋用于優化模型，徹底擺脫丑且詭異的標簽。
而要達成以上效果，用戶不需要懂任何技術，只要能把自己腦海中的畫面，用一段簡單的提示詞說出來，就能生成栩栩如生的視頻。
比如，這是一個使用 Wan2.5-Preview 生成的高贊視頻。
提示詞：黃昏，逆光，側光，柔光，高對比度，中景，中心構圖，干凈的單人鏡頭，暖色調。年輕白人男子站在樹林中，陽光透過樹葉在他發絲上形成金色光暈。他穿著淺色襯衫，微風吹動他的頭發和衣領，光線隨著他的動作在臉上流動。背景虛化，遠處是斑駁的光影和柔和的樹影，鏡頭聚焦于他微微抬起的目光，眼神清澈且帶有情緒。
視頻鏈接：
https://tongyi.aliyun.com/wan/work-detail/4ce663a31fbc4c5f859a8d8d6fbf23eb?resourceId=4ce663a31fbc4c5f859a8d8d6fbf23eb
可以看到，畫面中不僅人物神態動作自然，空氣中的塵埃，樹林中的光線也都十分還原，去掉右下角的 logo ，幾乎無法分辨是否實拍。
在此基礎上我們再加點難度，畫面更復雜一點，主體變成有精細毛發細節的布偶貓，然后加入動作、神態以及抑揚頓挫的語調：
提示詞：電影感仰拍鏡頭，讓主體顯得很有權勢。在一間奢華的客廳里，一只雍容華貴的布偶貓坐在一張王座般的貓爬架上。它用居高臨下、充滿審判意味的藍色眼睛俯視著鏡頭。它緩緩抬起一只毛茸茸的爪子，以一種極度鄙視的表情指向觀眾，質問說：「嗯？那我再問你，我生成視頻的音頻不自然嗎？回答我！Look in my eyes！Tell me why？Why baby why？」。戲劇性的華麗光影，淺景深，超精細的毛發細節，照片級真實感。
可以看到多個升級版要求多管齊下，但整體畫面的質量依然沒有下降，甚至就連環境中的光線角度，光源反射細節都完美還原。
當然，這種低門檻與高質量，只是 Wan2.5-Preview 火起來的基礎，在用戶體驗細節上， Wan2.5-Preview 還做了更多的探索與嘗試。

02如何定義體驗 ready 的視頻模型
AI 模型的技術參數再漂亮，最終要落地到用戶體驗上。
過去很多 AI 工具的通病是碎片化——文生圖一個模型、文生視頻一個工具、圖生視頻又要換平臺，用戶為了實現一個創意，得在多個工具間反復切換，生成、調整、合成的繁瑣步驟，早已磨掉了創作熱情。
更不用說，過去做一條電商營銷視頻，用戶要先找模型生成畫面，再用另一個工具做音頻，最后用第三方軟件合成，耗時不說，還容易出現音畫錯位。最后為了節約拍攝成本，不得不再招聘一個成本更高的算法工程師搭建業務的 workflow 。
seaart.ai 的案例很有代表性。這家 2023 年 4 月成立的公司，專注圖像和視頻生成，全球活躍用戶超 2500 萬，穩居 AIGC web 產品 TOP 50 。他們采訪過一位澳大利亞理發師，對方從小的夢想是當畫家，卻為生活拿起了剪刀。現在他每天最開心的時刻，就是下班用 seaart.ai（海藝）創作——過去用畫筆無法表達的想法，現在用文字就能生成畫面，「海藝成了安放靈魂和夢想的地方」。
之所以選擇海藝，正是因為海藝集成像 Wan2.5-Preview 這樣的模型，解決了過去 AI 視覺生成用戶體驗割裂的痛點。
在 Wan2.5-Preview ，生成 10 秒視頻時，系統會自動匹配人聲、環境音效和背景音樂，甚至能讓小貓的口型和「我愛媽媽」的臺詞對應上，全程無需人工干預。
在這背后，則是 Wan2.5-Preview 的統一框架設計：Wan2.5-Preview 沒有像 SD 那樣堆砌獨立模型，而是把文本、圖像、視頻、音頻的理解與生成裝進了同一個框架里。底層用文本分詞器、圖像 / 視頻編碼器、音頻編碼器分別拆解不同類型的信息；核心用多模態 Transformer 做大腦，實現跨模態信息的深度融合；輸出層直接支持文本、圖像、視頻、音頻的生成，借助多模態對齊能力，用戶不再需要在多個工具間切換。
最重要的是，用過 AI 的人都知道，一次性生成滿意的內容幾乎不可能。但是對圖像和視頻二次編輯又往往非常困難。 Wan2.5-Preview 在這方面做了針對性優化：
視頻上， Wan2.5-Preview 增強了復雜指令精準執行能力：能理解運鏡語言（如推、拉、搖、移）及連續變化指令，無需多次調整；細節優化：強化圖生視頻的元素 ID 一致性（即生成過程中保持人物、物體等核心元素不丟失），同時支持通用音頻驅動視頻生成。
在生圖上， AI 的生圖質量今年行業基本解決，但是對于圖片中加文字尤其是中文這樣的需求，就很容易變成鬼畫符，更不用提生成圖表。 Wan2.5-Preview 則不僅支持穩定生成中文、英文等文字，甚至能直接生成圖表；還能通過文字指令一鍵換裝、改風格，編輯時核心元素不會變形。
正是這些體驗細節的打磨，讓海藝平臺上的用戶用 Wan2.5-Preview 生成的視頻數突破 500 萬條，創意的表達就像說話一樣自然。

03技術到商業，如何加速
技術 ready、體驗 ready 的 AI 產品不少，但很多都停留在叫好不叫座的階段。
Wan2.5-Preview 的聰明之處在于，它在做好產品的同時，也打造了一整套完善的商業化體系。
這套完整商業化體系的最底層，是阿里云的算力支持，與模型軟硬一體形成生態護城河。中間層則是阿里云百煉這樣的模型開發服務平臺，讓用戶一鍵部署大模型不再是天方夜譚；最頂層的模型側，也給足了用戶選擇。
以 Wan2.5-Preview 給為例，不同用戶的需求天差地別：有人只是想嘗鮮做個 5 秒短鏡頭，有人要做 10 秒的抖音爆款；有人追求 1080P 電影級畫質，有人覺得 720P 夠用就行。
Wan2.5-Preview 選擇， 5 秒、10 秒，畫質上，提供 480P、720P、1080P 三種選擇，用戶可以根據預算和用途自由切換。
在此基礎上， Wan2.5-Preview 沒有掩飾自己對商業化以及算清成本賬的野心。在最近的飛天發布時刻上 Wan2.5-Preview 正式宣布商業化，并給出了明確且足夠優惠的收費標準：
國內：1080P 1 元 / 秒， 720P 0.6 元 / 秒， 480P 0.3 元 / 秒；
海外：1080P 0.15 美元 / 秒， 720P 0.1 美元 / 秒， 480P 0.05 美元 / 秒。
形成對比， Sora 2 生成視頻需要 0.1-0.5 美元 / 秒，國內可靈 2.0 收費標準為 0.5 元 / 秒， Wan2.5-Preview 屬于同等內容質量產品中，定價也極具吸引力的一檔。
而這種定價方式精準擊中了不同用戶的痛點：
對短視頻團隊、廣告公司等專業用戶，清晰的定價能讓他們準確核算成本，比 SD 免費但需自己承擔服務器成本更劃算；
對普通嘗鮮用戶，按秒收費意味著花幾塊錢就能試玩，不會被高昂的套餐費嚇跑。
建立在豐富的選擇與定價標準之上，通義萬相的商業生態也已經初步跑通，WaveSpeedAI 就是最好的案例。
這是一家專注多模態 AI 生成的平臺型公司，也是全球第一個上線 Wan2.5 系列模型的平臺。
圍繞怎么用好 Wan2.5-Preview ， WaveSpeedAI 的做法很聰明：它根據用戶的價格敏感度，按照分辨率、生成時長、加速程度梯度收費，此外，根據模型的不同，提供了分層解決方案：
最低價區間：用 Wan2.2 的快速推理版本，滿足預算有限的用戶；
中間層：用優化后的 Wan2.2 開源模型，平衡成本和質量；
高端層：用 Wan2.5 的快速版和普通版，服務追求高質量的用戶；
在此基礎上， WaveSpeedAI 還拓展了數字人業務，在對口型的基礎上，實現了更豐富的肢體動作和表情控制。目前， WaveSpeedAI 借助 Wan2.5 生成的視頻數已突破 1000 萬條。
以上只是個例，據云棲大會官宣數據，通義萬相家族已整合 10 多種視覺創作能力，累計生成 3.9 億張圖片和 7000 萬個視頻，成為國內主流的 AI 視覺創作工具。

04尾聲
AI 視頻的故事遠沒到結尾。
技術側，現在的模型依然有短板：內容生成時長不夠長、細節不夠細膩、長視頻的一致性問題還沒完全解決……
但不可否認的是，無論是 Sora 2 的 AI Tik Tok 野心，還是 Wan2.5-Preview 的行業側深耕，都讓 AI 視覺生成跨過了技術到產品的鴻溝。
【從 SD 到 Wan2.5-Preview，AI 視頻 2025 質變啟示錄】在這個過程中，技術先進固然重要，但能把技術變成用戶愿意用、愿意付費的產品，讓行業真正嘗到 SOP 縮短，效率增加，用戶體驗提升，才是真正的勝負手。

推薦閱讀

上一篇：領益智造與國地共建具身智能機器人創新中心共建中試基地

下一篇：10000mAh 新機已備案！搭載天璣 8500 處理器