CVPR 2026 | 從「單幀」到「分鏡」:STAGE重新定義AI電影敘事

CVPR 2026 | 從「單幀」到「分鏡」:STAGE重新定義AI電影敘事

文章圖片

CVPR 2026 | 從「單幀」到「分鏡」:STAGE重新定義AI電影敘事

文章圖片

CVPR 2026 | 從「單幀」到「分鏡」:STAGE重新定義AI電影敘事

文章圖片

CVPR 2026 | 從「單幀」到「分鏡」:STAGE重新定義AI電影敘事

文章圖片

CVPR 2026 | 從「單幀」到「分鏡」:STAGE重新定義AI電影敘事

文章圖片



從 Sora , 可靈到 seedance 2.0 , AI 視頻生成的浪潮正席卷而來 , 其驚人的視覺質量讓人嘆為觀止 。 然而 , 當我們嘗試用它創作一個真正的 “故事” 時 , 一個普遍的瓶頸浮出水面:連貫性 。
為了攻克這一難題 , 我們提出了 STAGE , 一個以 “電影分鏡” 為核心的全新敘事生成框架 。 它不再預測孤立的關鍵幀 , 而是直接生成每個鏡頭的 “起始 - 結束幀對” , 為多鏡頭視頻的創作提供了前所未有的結構化控制力 。

目前 , 該論文已錄用至 CVPR 2026 , 相關數據集和模型訓練訓練和推理代碼將逐步開源:
論文標題:STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative 作者單位:北京郵電大學、北京大學、北京智源人工智能研究院 代碼鏈接:https://github.com/escapistmost/Storyboard-Anchored-Generation一、前言:AI 視頻生成 , 從 “做動圖” 到 “拍電影” 還差多遠?
究其原因 , 一個好故事并非一堆漂亮鏡頭的簡單拼接 , 而是一個有結構、有邏輯的敘事整體 。
目前 , 主流的多鏡頭視頻生成方法大致分為兩派:
端到端 “一鏡到底”:計算成本極高 , 且過程像 “開盲盒” , 難以控制 , 稍有不慎就滿盤皆輸 。關鍵幀 “分步走”:先生成幾個關鍵畫面作為 “路標” , 再讓視頻模型去 “腦補” 中間過程 。 這種方法更靈活 , 但問題也隨之而來 。這些方法生成的視頻 , 常常在鏡頭切換時出現 “災難性” 的斷裂:前一秒主角還穿著紅衣 , 后一秒就換了顏色;或者一個流暢的開箱動作 , 在特寫鏡頭里卻變成了 “瞬移”(如下圖中的戒指盒) 。 這些 “穿幫鏡頭” 的根源在于 , 模型只知道每個鏡頭 “大概長啥樣” , 卻不懂得鏡頭與鏡頭之間該如何 “銜接” 。

現有方法(上)在鏡頭切換時常出現動作不連貫、物體不一致的問題 。 STAGE(下)通過預測結構化的 “分鏡” , 實現了電影級的平滑過渡 。
問題的本質是:我們一直在讓 AI “畫單幀” , 而不是 “拍分鏡” 。 一個真正的導演 , 腦海里不僅有高潮畫面 , 更有每個鏡頭的起與承、轉與合 。
二、核心洞察:用 “起始 - 結束幀對” 重構敘事骨架
多鏡頭敘事的關鍵 , 不應是幾個孤立的、稀疏的關鍵幀 , 而應是一個結構化的電影分鏡 (Storyboard) 。 基于此 , 我們提出了一個創新性的想法:
將關鍵幀生成任務 , 重新定義為 “起始 - 結束幀對 (Start-End Frame Pairs)” 的預測任務 。
也就是說 , 對于每一個鏡頭 , 我們不再只預測一個代表性的畫面 , 而是直接預測出它的 “第一幀” 和 “最后一幀” 。 這個看似簡單的改變 , 卻帶來了三大優勢:
長程敘事有 “骨架”:所有鏡頭的起始 / 結束幀串聯起來 , 形成了一個穩固的視覺骨架 , 確保了角色、場景在整個故事中的長期一致性 。鏡頭內部有 “航向”:一個鏡頭的起始幀和結束幀 , 明確定義了該鏡頭內部的動態變化 , 無論是人物走位還是鏡頭推拉 , 都有了清晰的起點和終點 。鏡頭銜接有 “電影感”:上一個鏡頭的 “結束幀” 和下一個鏡頭的 “起始幀” 之間的關系 , 直接對 “轉場” 這一電影語言進行建模 , 讓 “剪輯點” 變得平滑而有邏輯 。正是基于這一觀察 , 設計了全新的多鏡頭敘事生成工作流 ——STAGE (SToryboard-Anchored GEneration) 。
三、技術核心:STEP2 , 一個懂得 “拍分鏡” 的 AI 導演
【CVPR 2026 | 從「單幀」到「分鏡」:STAGE重新定義AI電影敘事】STAGE 工作流的核心 , 是我們提出的起始 - 結束幀對預測模型 ——STEP2 (STart-End frame-Pair Prediction model) 。 它就像一位 AI 導演 , 能將文字劇本精準地翻譯成一系列可執行的視覺分鏡 。

為了讓這位 “AI 導演” 足夠專業 , 我們為它配備了三大法寶:
1. 多鏡頭記憶包 (Multi-shot Memory Pack):過目不忘 , 確保角色不 “穿越”
為了在生成第 N 個鏡頭時還記得第一個鏡頭里主角長什么樣 , 我們設計了一個高效的記憶壓縮機制 。 它能將所有歷史鏡頭的視覺信息壓縮成一個緊湊的 “記憶包” , 在保證長期一致性的同時 , 避免了巨大的計算開銷 。
2. 雙重編碼策略 (Dual-Encoding Strategy):運鏡連貫 , 確保動作不 “瞬移”
為了保證單個鏡頭內部的邏輯自洽(例如 , 一個平滑的推鏡頭) , 我們將一個鏡頭的起始幀和結束幀 “捆綁” 在一起進行聯合編碼 。 這讓模型在生成之初就對整個鏡頭的動態了然于胸 。
3. 兩階段訓練方案 (Two-stage Training Scheme):從 “會拍” 到 “拍得好”
光會拍還不夠 , 還要有 “品味” 。 我們借鑒了電影學院的教學模式:第一階段(SFT 監督微調):先讓模型在海量的電影片段上學習基礎的鏡頭語言 , 做到 “會拍” 。 第二階段(DPO 偏好對齊):再用人類精選的 “好 / 壞” 鏡頭轉場案例進行 “閱片” 訓練 , 讓模型學會什么是 “高級的、電影感的” 轉場 , 最終實現 “拍得好” 。
四、數據基石:讓模型學會 “分鏡” 的起點
要讓 AI 學會電影語言 , 一本好的 “教科書” 必不可少 。 然而 , 現有數據集都只關注單幀 , 無法滿足我們對 “分鏡” 和 “轉場” 的訓練需求 。 為此 , 我們構建了大規模的 ConStoryBoard 數據集 。 我們從公開電影中篩選了 10 萬個高質量多鏡頭片段 , 并為每個鏡頭都進行了精細化標注 , 包括:起始 - 結束幀對 , 故事進展描述 , 鏡頭尺度、機位、運鏡等電影學屬性 。 更進一步 , 我們還從中人工挑選出最優的轉場案例 , 構建了包含人類偏好的子集 ConStoryBoard-HP , 專門用于第二階段的 “品味” 訓練 。
五、實驗結果:不僅更連貫 , 還更懂 “電影感”
我們將 STAGE 與多種 SOTA 多鏡頭生成方法進行了全面對比 。
視覺對比

在 “火車上的女人” 這一主題下 , 其他方法出現了場景不一致(CineTrans)、風格失真(StoryDiffusion)、動作斷裂(VideoGen-of-Thought)等問題 。 STAGE 則完美保持了人物和環境的一致性 , 并實現了流暢的敘事 。
定量指標

動態展示




六、意義與展望:讓 AI 學會用鏡頭講故事
這項工作傳遞了一個清晰的信號:多鏡頭視頻生成的未來 , 在于結構化的敘事控制 , 而不僅僅是像素的堆砌 。 通過引入 “分鏡” 這一電影工業的核心概念 , STAGE 為 AI 視頻生成開辟了一條從 “技術炫技” 邁向 “藝術創作” 的新路徑 。 它讓模型不再是一個只會畫畫的 “美工” , 而更像一個懂得如何用鏡頭組織故事的 “導演” 。
我們相信 , 當 AI 真正開始學會 “拍電影” , 而不僅僅是 “做動圖” 時 , 一個由 AI 輔助創作的、真正屬于每個人的電影時代 , 才算真正到來 。
更多細節請參閱原論文 。

    推薦閱讀