Sora2還在5秒打轉,字節AI生視頻已經4分鐘“起飛”

Sora2還在5秒打轉,字節AI生視頻已經4分鐘“起飛”

文章圖片

Sora2還在5秒打轉,字節AI生視頻已經4分鐘“起飛”

文章圖片

Sora2還在5秒打轉,字節AI生視頻已經4分鐘“起飛”

文章圖片

Sora2還在5秒打轉,字節AI生視頻已經4分鐘“起飛”

文章圖片

Sora2還在5秒打轉,字節AI生視頻已經4分鐘“起飛”

文章圖片

Sora2還在5秒打轉,字節AI生視頻已經4分鐘“起飛”

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
從5秒到4分鐘 , Sora2也做不到的分鐘級長視頻生成 , 字節做到了!
先來看一個前方潛水員拍攝的“真實”海底世界Vlog:
視頻鏈接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ
華生 , 有發現么?不同于一般的AI生成視頻 , 只有短短幾秒鐘……這個片子全程1分40秒 , 都是“水分”、都是AI 。
這就是字節和UCLA聯合提出的新方法——Self-Forcing++ , 無需更換模型架構或重新收集長視頻數據集 , 就能輕松生成分鐘級長視頻 , 也不會后期畫質突然變糊或卡住 。
通過利用教師知識和自生成視頻片段指導自回歸生成 , 最長生成視頻可達4分15秒 , 而且高質量、還開源 。
話不多說 , 再看幾個視頻效果嘗嘗鮮 。
長達3分鐘的無人機視角下的海岸線 , be like:
視頻鏈接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ
時長拉到極致 , 4分15秒跟隨大象的腳步縱覽草原美景 。
視頻鏈接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ
而相同時長下 , 此前的長視頻生成SOTA SkyReels做出的效果是醬紫的:(重生之我成為一只螞蟻)
視頻鏈接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ
Self-Forcing++在短時長上繼承了Self-Forcing的高質量畫面效果 , 長時長生成也能達成性能指標All kill , 視覺穩定性大幅領先CausVid等方法 。
或許 , AI電影時代離我們已不再遙遠……下面來康康更多詳細內容 。
從5秒到4分15秒先一起來思考下這個問題:為啥現在的AI視頻質量這么高 , 但還是很容易被人捉蟲AI生成?
其實bug就出自視頻長度 。
無論是Sora2、字節Wan , 還是騰訊混元、谷歌Veo , 視頻內容再真假難辨 , 長度卻都只有5到10秒 。
即使勉勉強強做出長視頻 , 也是只有前幾秒能看 , 后面畫面通通崩壞 。
原因無他 , 傳統擴散視頻生成模型依賴Transformer結構 , 即使改用雙向教師模型將知識蒸餾給學生模型 , 由于模型本身無法生成長視頻的限制 , 還是會持續不斷積累誤差 。
于是針對這一問題 , 字節提出Self-Forcing++方法抑制后期質量下降 , 不再依賴長視頻教師模型訓練 , 而是讓模型在自己的錯誤中成長 。

首先是視頻長度上 , 分別從噪聲初始化、蒸餾方式、緩存機制三方面優化訓練過程:
反向噪聲初始化:讓學生模型生成遠超5秒(實驗用100秒)的干凈幀序列 , 再按擴散噪聲調度向序列中重新注入噪聲 。 擴展分布匹配蒸餾:在幀序列生成后 , 從中隨機抽取5秒連續窗口 , 計算學生與教師模型在窗口內的分布差異(KL散度) , 然后通過最小化該差異完成訓練 。 滾動KV緩存訓練:在訓練與推理階段均采用滾動KV緩存 , 訓練時用該緩存生成遠超教師監督時長的序列 , 用于擴展DMD計算 。簡單來說 , 就是讓LLM在犯錯-修正-再犯錯的循環中 , 逐漸學會長時間的穩定生成 。

另外 , 由于自回歸模型使用滑動窗口或稀疏注意力生成長序列時 , 容易出現長時記憶丟失的情況 , 還需要引入組相對策略優化(GRPO)改善視頻平滑性 。
通過計算每一步的重要性權重 , 結合當前自回歸生成的對數概率總和 , 衡量生成策略的合理性 , 再將相鄰幀光流的相對大小作為運動連續性代理指標 , 引導模型優化 , 最終可有效減少畫面突變異常 。

【Sora2還在5秒打轉,字節AI生視頻已經4分鐘“起飛”】研究人員同時發現 , 現有長視頻評估所使用的VBench基準并不完全準確 , 一些過亮的壞視頻也會被誤判為好 。
為此他們將Gemini-2.5-Pro作為評委 , 讓模型按照過曝光、誤差積累等維度以0-100分評分 , 可以更為精準地衡量視覺穩定性(Visual Stability) 。
這一點在后續的實驗結果中也得以驗證 。
兼顧時長和質量研究人員主要設計了兩類場景評估 , 分別對比該方法與基準模型(包括自回歸模型與雙向模型)在短時長視頻質量和長時長生成上的效果 。
其中短時長場景(5s)仍然采用VBench基準 , 根據946個提示詞從16個維度評估生成質量 。

結果顯示 , Self-Forcing++在語義得分(80.37)和總得分(83.11)上均超過NOVA、SkyReels-V2、CausVid等模型 , 只略低于Wan2.1的總得分84.67 。
說明Self-Forcing++雖并未專門針對短視頻進行訓練 , 但其在短時長場景中仍能保持高視覺質量與語義一致性 。

在50秒生成時 , 視覺穩定性得分為90.94 , 遠超CausVid(40.47)和Self-Forcing(40.12) , 動態程度更是Self-Forcing得分的1.6倍 , 文本對齊得分(26.37)也高于多數基準 , 證明其在中長時長場景的穩定性 。

而在75秒到100秒生成中 , 文本對齊得分可達26.04、動態程度為54.12 , 相比CausVid分別提升6.67%和56.4% , 相比Self-Forcing則提升18.36%和104.9% 。
視覺穩定性得分(84.22)為Self-Forcing(32.03)的2.6倍 , 且framewise質量(60.66)與基準模型相當 , 說明其在極長時長下仍能保持高保真度與一致性 。

長視頻生成通常存在的失效模式 , 如運動停滯、保真度退化 , Self-Forcing++均未出現類似情況 , 視頻全程保持連貫運動和穩定亮度及質量 。
最終實驗驗證得出 , Self-Forcing++可最長生成4分15秒的視頻 , 比原先的5秒提升近50倍 , 且在保真度和一致性上優于基線方法 。
參考鏈接:[1
https://self-forcing-plus-plus.github.io/[2
https://arxiv.org/abs/2510.02283
— 完 —
量子位 QbitAI
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀