國產視頻模型登頂全球第一！給谷歌Veo上了一課，還把錢給掙了

2026-04-04 ai Google 昆侖萬維

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：犀牛 KingHZ
【新智元導讀】站在2026年春天回望， Sora浪潮之后， SkyReels V4用四位一體頂級能力（多模態參考+音視頻聯合+統一任務框架+全模態強化）登頂全球第一！AI視頻創作的大一統時刻，真正屬于中國的時代來了！

國產視頻生成模型，第一次站上了世界最頂端。
就在剛剛，第三方機構 Artificial Analysis 最新榜單里， SkyReels V4 拿下了「文本生成視頻（含音頻）」全球第一！

它壓過了谷歌Veo 3.1 ，也超過了Kling 3.0 。
更關鍵的是，這個榜單不是廠商自己跑分。看的是大量真實用戶的盲評結果。
這標志著，在最難、也最具價值的「文生視頻+音頻」賽道里，國產模型已經沖到了最前面。
2月27日， SkyReels V4 Preview首次亮相時，已經拿到全球第二。
不到一個月， SkyReels V4又往前跨了一步，直接沖到第一。
SkyReels V4不只是更強了，它已經開始改寫全球視頻模型的排位。
它標志著中國AIGC視頻技術正式引領世界。
在2026中關村論壇， SkyReels-V4即將正式重磅發布， API已經開放（skyreels.ai）。

鏈接:https://www.skyreels.ai/api-platform
在其他模態上， SkyReels V4也表現出色，在「文本到視頻（無音頻）」中排名第二。

空談數據，不如直接看能力。接下來，好好看看全球第一的視頻AI到底有多猛。

實測：AI短劇之王

對昆侖萬維天工AI而言， SkyReels開始邁向完整的多模態視頻生成系統轉型，支持文本、圖像、視頻和音頻輸入。
它是全球首個同時支持多模態輸入、聯合音視頻生成、統一生成/修復/編輯任務的視頻基礎模型。
下面六個方向的實測，每一個都能讓你感受到這款模型的恐怖之處。
AI短劇生成：兩張圖+一段臺詞，直出影院級短劇。你只要丟進兩張角色圖，再寫一段臺詞。
SkyReels-V4就能直接吐出一段 1080p、32FPS、15 秒的視頻。
畫面質感、角色表情、嘴型同步，幾乎沒什么AI味兒。
不管是東方面孔還是西方面孔，效果都極其自然。
雷鳴交加，荒原上風沙漫卷，關公秦瓊展開史詩對決——
從簡單文字到完整視頻+音頻，零基礎也能輕松創作電影級內容，真正做到「想拍什么，就拍什么」！
關鍵是AI味兒，幾乎沒了。
更關鍵的是，這次不是「先出畫面，再硬貼聲音」。
SkyReels-V4專門被設計為同時處理畫面和聲音。

多幀參考：九張圖，終于把角色和劇情都釘住了。
此次SkyReels-V4最重磅的升級之一，是多幀參考。
你最多可以給它 9 張關鍵幀。
它會按這9張圖，把中間的動作、鏡頭和過渡補出來。
這很重要，很實用。
以前做 AI 短劇，最容易翻車的就是兩點：

前一秒還是這張臉，后一秒就「換臉」了；
剛剛還在這個場景，轉頭就跳到了另一個世界。

SkyReels-V4這次最實用的進步，就是把這兩個坑壓下去了，當之無愧的AI漫劇之王。

提示詞示例：「@圖片-1的光背青年不斷向前奔跑，期間會出現好幾個拐角，鏡頭追蹤；隨后鏡頭切換至@圖片-2 ，青年赤裸了上半身，繼續向前奔跑然后急轉彎；隨后鏡頭切換至@圖片-3 ，他露出了詫異的表情；最后鏡頭切換至@圖片-4 ，他向右擰動了轉盤，一大股濃煙占據了畫面。」
這種視頻控制能力，簡直絕了。
風格也是完全統一。對于這種漫劇而言，更是沒有一絲AI味。
再比如這段神似「無臉男」怪物的動畫。

根據@圖片-1中的動漫情節，按從上到下、從左到右的順序自然過渡展開，生成一個動畫短片。
打斗的畫面相當絲滑，特寫鏡頭切換也是相當合理。
這種玄幻風格的動畫也不在話下。

得益于SkyReels-V4的音、畫同步生成能力，人物說話對口型不再是難題。

一站式視頻編輯，用嘴剪視頻。
更狠的是，它不只會生視頻，還會直接改視頻，堪稱后期神器。
你可以讓它做三類事：
第一類，往畫面里加東西。
給角色戴帽子，往房間里擺花，把一個新人物塞進原場景。

Add the blue ribbed knit beanie from @image_1 onto the head of the central dancer in @video_1.
一句話，就把帽子加到小姐姐頭上了。
更令人震驚的是，各個角度都十分完美。
太驚艷了。

第二類，改角色動作。
讓新加進來的人物跟著原角色一起跳舞，或者把動作重新綁定過去。

Add the colorful fursuit character from @image_1 into the urban dance scene in @video_1 placing them on the dance floor next to the dancer. The character should mirror the dancer's movements with a playful exaggerated dance style.
不僅把角色加進去了，更厲害的是，還能配合原來的人跳舞。
這個視頻生成理解能力，絕了。

第三類，直接做清理。
去字幕，去水印，去臺標，刪路人，刪動物，刪掉一切不想要的干擾物。
這種在模型充分理解視頻基礎之上的編輯能力，簡直太強了。

過去你需要在Premiere、AE、各種AI工具之間反復切換才能完成的工作，現在SkyReels-V4一個模型就全搞定。
換句話說，視頻生成、元素植入、角色編輯與畫面清理，正在被收斂到同一套通用編輯框架里。
這一次的一大突破，是把視頻生成、補幀、延展、編輯統一進同一套接口，讓文生視頻、圖生視頻、視頻延展、首尾幀插值，以及局部、全局編輯，都落在同一種處理框架下。
技術硬突破：憑什么硬剛Seedance 2.0？
看完效果，我們來看看SkyReels-V4背后的技術到底硬在哪里。
上個月， SkyReels V4 Preview登上全球現役模型排名第2時，我們就做過詳細的分析報道。 ——Seedance2.0炸場后，又一中國黑馬登頂AA榜單！AI味沒了。
不到一個月，從Preview版全球第二到升級版登頂第一——這個速度，放在游戲里叫「開掛」，放在AI圈叫「SkyReels-V4」。
SkyReels-V4 這次往前沖，靠的不是小修小補。
它主要治好了兩個視頻AI老毛病。
第一個老毛病，是「畫面好看，但邏輯不通」。
比如，水往天上流，杯子懸在空中，還不是動漫；人一轉身，動作就穿幫。
為了解決這個問題， SkyReels-V4 在訓練時，不再只盯著「像不像」，還要判斷「對不對」。
說得直白一點，就是給模型加了一套更嚴格的評分系統：

畫面要好看，動作要合理，聲音還得對上嘴型和節奏。
哪里不對，就反復打回去重練。

這個過程，論文里叫全模態強化學習。
另一方面，團隊引入了階梯式課程強化學習機制，圍繞分辨率與時長、任務復雜度、數據難度三個關鍵維度，推動模型從簡單任務逐步進階到復雜任務，持續提升對高難度生成場景的掌控能力。
你可以把它理解成：以前老師只看卷面漂不漂亮；現在老師開始同時盯邏輯、動作和表達了。
以前老師只看考試成績好不好；現在老師開始同時關注學生學習過程，改進授課方法了。
第二個老毛病，是「角色記不住」。
你給幾張關鍵幀， SkyReels-V4就能把中間過程補出來。你給它九張劇情圖， SkyReels-V4就能盡量把角色臉、服裝和場景風格一直鎖住。
這對AI短劇太關鍵了。
【國產視頻模型登頂全球第一！給谷歌Veo上了一課，還把錢給掙了】以前最讓人出戲的，就是角色一會兒一個樣。
以前AI拍短劇，男主第一集是尖下巴，第二集變成了國字臉，觀眾直接出戲。
現在有了九宮格參考，角色全程一致，場景全程連貫， AI短劇終于從「看個熱鬧」升級到了「可以認真追」的水平。
這兩項能力把視頻生成的一致性和可控性拉到了行業天花板，也讓SkyReels-V4從一個「視頻生成工具」，正式進化為「短劇工業化生產引擎」。
SkyReels-V4技術報告也已公開。

技術報告：https://arxiv.org/pdf/2602.21818

直面實踐的檢驗
國產AI版Netflix來了
真正值得注意的，不只是榜單，而是這套模型已經被放進業務里跑了。
DramaWave：昆侖萬維的AI版Netflix 。
SkyReels-V4的技術直接支撐了昆侖萬維旗下的短劇平臺DramaWave 。
截至2026年1月，以DramaWave和FreeReels為核心的昆侖短劇平臺， MAU已突破8000萬大關，年化流水收入ARR破4.8億美元，月流水高達4000萬美元。
這不是PPT上的數字，而是真實的用戶在真實地付費觀看AI參與制作的內容。
近期， DramaWave 推出「百萬美金?劇啟 AI 」創作扶持計劃，廣納全球優質創作者。昆侖萬維全新自研的AI短劇Agent工具SkyAnime也同步上線，從工具端為創作者賦能，全方位提升創作效率。
DramaWave上的AI劇模塊已上線近千部作品， AI自制劇月產能超30部。
以自制AI短劇《掠奪詞條！我轉職為亡靈天災》為例，依托SkyAnime工具制作，成本不足2萬美金，上線后單日投放超10萬美金，累計播放量達數百萬次。
這是一個完美的「技術→產品→商業化」閉環驗證。

從「片段生成」升級為工業化全鏈路視頻生產。
SkyReels-V4的意義遠不止于「能生成一段好看的視頻」。
對于AI短劇產業而言， SkyReels-V4解決的是最核心的痛點：角色一致性。
過去AI生成的短劇，角色換個鏡頭就「變臉」，觀眾根本無法入戲。
SkyReels-V4的九宮格參考能力，讓角色在整部劇集中保持一致，讓AI短劇的品質第一次達到了「可以認真看」的水平。
這對于整個AI影視產業來說，是質的飛躍。
為游戲、音樂、內容生態提供統一視頻生成底座。
值得注意的是， SkyReels-V4不是一個孤立的產品。
昆侖萬維旗下還有AI音樂創作平臺Mureka——其O1模型是全球首個引入思維鏈（CoT）技術的音樂推理大模型， V8版本在音色、演奏技法、情感表達上持續突破，用戶遍布全球100多個國家和地區。

SkyReels-V4的視頻能力+Mureka的音樂能力，構成了從畫面到聲音、從配樂到人聲的全鏈路創作閉環。
一家公司同時擁有全球頂尖的視頻大模型和音樂大模型，這在全球范圍內屈指可數。
一個品牌方可以用一句話生成完整的視頻廣告，一個獨立音樂人可以把歌曲直接變成高質量MV ，一個教育機構可以把課程自動轉化為配有講解、配樂和動態畫面的教學視頻——這些不是暢想，而是正在發生的事。

All in AGI
回顧昆侖天工在視頻大模型領域的發展軌跡，你會發現SkyReels-V4的崛起絕非偶然，而是一場精心布局的戰略級爆發。

2025年2月，開源SkyReels-V1——中國首個面向AI短劇創作的視頻生成模型，基于千萬級影視數據訓練，支持33種微表情和400多種動作組合。
2025年4月，發布SkyReels-V2——全球首個使用擴散強迫（Diffusion Forcing）框架的無限時長電影生成模型。
2026年1月，開源SkyReels-V3——支持1-4張參考圖像輸入，實現多主體視頻生成。
2026年2月， SkyReels-V4 Preview發布——Artificial Analysis全球榜第二。
2026年3月， SkyReels-V4正式登頂全球第一。

從V1到V4 ，它不是簡單加參數。每一代都在補一個關鍵短板。
平均每3-4個月一次重大升級，這種迭代節奏在全球AI視頻領域幾乎無人能及。
這種持續創新的節奏，配合Mureka在AI音樂領域的領先地位、Skywork系列在大語言模型和多模態推理上的突破、以及DramaWave短劇平臺的商業化落地，昆侖萬維正在構建一個覆蓋「算力—模型—應用」的完整AI生態閉環。
這正是昆侖萬維自2023年初確立「All in AGI與AIGC」核心戰略以來，最具說服力的成果展示。
AI視頻創作的「大一統」時刻

站在2026年春天回望， AI視頻生成領域在過去一年經歷了翻天覆地的變化。
從Sora掀起的第一波浪潮，到Veo、Kling、Seedance等模型的百家爭鳴，再到SkyReels-V4以「全模態參考+音視頻聯合生成+統一任務框架+全模態強化學習」的四位一體能力登頂全球——我們正在見證一個新時代的開啟。
在這個時代里，視頻創作不再是專業團隊的專屬特權，而是每一個有創意的人都能觸及的表達方式。
而SkyReels-V4所代表的技術方向——用一個模型、一次操作，完成從文字構思到音視頻成品的全流程創作——正是通往那個未來的最清晰路徑。
昆侖萬維在技術報告中透露了未來三大方向：擴展更長時長（30秒+）的視頻生成能力、增強實時交互編輯功能、開放模型API接口與更多創作工具生態集成。
這些方向中的每一個，都將進一步拉近AI視頻創作與專業影視制作之間的距離。
AI視頻的競賽遠未結束。但SkyReels-V4已經用全球第一的成績證明了一件事：
在這條賽道上，來自中國昆侖萬維的聲音，不僅值得全世界傾聽——它已經站在了世界之巔

推薦閱讀

上一篇：內存瘋漲逼瘋三星！為了省錢棄用自家屏幕

下一篇：聯想小新 Pro16 GT開售：99.9Wh巨量電池續航突破34小時