國產視頻生成再突破!從影視級短片到遠洋親情連線,AI讓天涯變咫尺

國產視頻生成再突破!從影視級短片到遠洋親情連線,AI讓天涯變咫尺

文章圖片

國產視頻生成再突破!從影視級短片到遠洋親情連線,AI讓天涯變咫尺

智東西
作者 | 陳駿達
編輯 | 漠影
起猛了 , AI現在都能生成武打戲了 , 還是人虎搏斗的那種!
近日 , 一條名為《風入松》的AI短片 , 在年度AI盛會WAIC期間亮相 , 吸引了不少眼球 。 這部影片以現代廢土風 , 重新演繹了經典的“武松打虎”故事 。
AI短片《風入松》
《風入松》由中國電影導演中心與中國電信人工智能研究院(TeleAI)聯手打造 , 使用的正是TeleAI的VAST視頻生成大模型 。
TeleAI由中國電信集團CTO、首席科學家李學龍教授牽頭組建 , 于去年7月的WAIC大會上正式揭牌 。 在李學龍教授的帶領下 , TeleAI團隊打造了包括VAST在內的星辰大模型體系 , 是國內首個全模態、全尺寸、全國產的“三全”大模型 , 并推動相關技術的創新和應用 。
從設定的角度來看 , 《風入松》這部短片本身便極具想象力 , 但最令人驚嘆的 , 當屬AI技術如何將天馬行空的想象化為逼真畫面 。
作為技術支撐 , TeleAI的VAST視頻生成大模型去年12月發布時 , 便在權威視頻生成評測榜單VBench中奪得榜首 , 并持續迭代升級 。
從基礎畫面生成 , 到復雜動作 , 再到鏡頭控制與角色一致性優化 , 其能力邊界不斷擴展 , 已具備在專業創作場景中“頂上陣”的潛力 。

一、視頻生成告別開盲盒游戲 , 能演會拍才是好AI要真正理解《風入松》這部短片實現的突破 , 我們首先得看看 , 影視制作究竟需要什么樣的AI工具 。
分辨率高、動作流暢、細節寫實 , 這些只是技術層面的基礎能力 , 遠遠不夠支撐一部真正意義上的影視作品 。
要在真實的影視制作流程中發揮作用 , AI更關鍵的是要理解導演的創作意圖 , 跟上敘事節奏、掌握鏡頭語言、調動情緒氛圍 , 真正融入視聽語言的表達體系 。
換言之 , AI不僅要會畫畫 , 更要像電影人一樣會拍、會演 , 能夠協同完成角色塑造、場景調度與敘事推進 , 成為一名具備視聽表達能力的“創作伙伴” 。
《風入松》中 , TeleAI 的VAST視頻生成大模型已展現出強烈的畫面表現力和敘事控制力 。
影片伊始 , 當現代“武松”騎著摩托車在沙漠飛馳 , AI將每一處細節都刻畫得淋漓盡致:引擎轟鳴聲與風沙的呼嘯形成震撼音浪 , 摩托車飛躍障礙時在空中劃出完美的弧線 , 車輪駛過沙地時激起細膩的沙浪 , 光影真實自然 。
在激烈的猛虎搏斗場景中 , AI模擬的每一根虎毛都隨動作擺動 , 肌肉線條在撲咬時展現出驚人的動態細節;主角與老虎搏斗時拳拳到肉 , 動作有力、毫無穿幫 。 這些曾需要頂級特效團隊數月打磨的畫面 , 如今通過AI實現了電影級的真實感 。
TeleAI視頻生成大模型已經憑借其影片質量 , 俘獲了一批專業人士 。 參與《風入松》制作的團隊在影視行業有豐富的從業經驗 , 據了解 , 他們在使用TeleAI視頻生成大模型后 , 給予了高度認可 , 這更凸顯了TeleAI在視頻生成領域實現的重大突破 。

二、如何打造電影級視頻生成模型?揭秘背后三項核心技術那么 , 打造這樣一款視頻生成大模型 , 背后究竟需要哪些關鍵支撐?從《風入松》的畫面中 , 我們可以清晰地看到其中的三項核心技術 。
首先是動作遷移技術 。 在《風入松》這部短片中 , TeleAI的VAST視頻生成大模型展現出強大的畫面表現力和敘事控制力 。 張力十足的打斗戲中 , 沒有出現“穿?!薄⑴で瘸R妴栴} 。
動作遷移技術允許制作者上傳一張首幀圖和一段參考動作 , AI便能讓首幀圖中人物的動作表演與參考視頻完全一致 。 這一技術成功攻克了AI生成視頻中動作節奏難以控制、人物表情表演生硬等難題 , 讓AI生成的視頻人物動作更自然、表情更生動 。
業界的主流動作遷移方案都基于骨骼綁定 , 不過 , TeleAI決定更上一層樓 , 將其從2D骨骼點升級為3D骨骼點綁定 , 使得動作更具空間感、層次感 , 甚至可以自然地控制動物或卡通人物 。
另一大核心技術為可控三維運鏡 , 賦予了AI對“鏡頭語言”的準確理解和運用能力 。 例如 , 在下方畫面短短的幾秒內 , 《風入松》呈現了多角度、快速切換的復雜運鏡 , 遠景、仰拍、特寫等流暢銜接 。 這些原本需要專業攝影指導和團隊配合的鏡頭切換 , 在這里被AI準確實現 。
這并不是靠堆砌提示詞“蒙”出來的 。 通過可控三維運鏡技術 , TeleAI把三維重建與視頻生成深度融合 , 賦予模型空間結構的感知能力 , 再通過攝像機內參、外參等物理參數精細控制運鏡效果 。 AI不只是懂內容 , 它逐漸開始懂得怎么拍 , 讓AI真正具備導演般的視角 。
會演、會拍僅僅是開始 , 很多業內人士評價 , AI視頻目前最大的問題之一是“一致性差” , 同一人物在不同鏡頭中的形象、著裝、氣質常常前后不一 , 極易穿幫 。
但《風入松》中的主角卻始終保持了穩定的外貌風格 , 這得益于背后的人物一致性技術 。 TeleAI 的VAST視頻生成大模型采用分步生成的方式 , 先生成分鏡、深度信息等中間數據 , 再在此基礎上精細生成畫面 。
這種生成流程極大提高了人物、畫面的一致性與敘事可控性 , 流程和電影工業中用故事板搭建畫面框架 , 再利用計算機圖形技術渲染的邏輯幾乎一致 , 讓AI沒有隨意發揮的空間 。
上述底層能力的升級 , 是AI視頻真正邁入影視工業體系的敲門磚 。 更重要的是 , TeleAI在與專業導演的合作中 , 獲得了大量來自一線實踐的反饋需求:比如演員的表情、情緒、人物節奏等更加細膩的表演控制 。 這些開發者原本沒有預料到的專業需求 , 正逐漸轉化為技術研發的新方向 。 憑借這些先進技術 , TeleAI為影視制作行業帶來了前所未有的便利和優勢 。

三、視頻生成+通信解鎖新場景 , “腦補”畫面實現遠洋視頻通話在推動視頻生成技術賦能影視工業的同時 , TeleAI也在積極探索這項技術更廣闊的應用場景 。 畢竟 , 視頻生成的本質并不僅限于電影創作 , 而是一種對視覺信息的重構方式 。
從AI的通用視角來看 , “智能的本質是壓縮”已成為業內共識 。 無論是語言模型、圖像模型還是視頻模型 , 其核心任務都是從海量原始數據中提取模式與規律 , 并以高效、緊湊的方式編碼進模型參數中 , 模型學會用有限的參數表示無限的可能 。
但真正的智能不僅在于壓縮 , 更在于“還原” 。 也就是說 , 一個具備高水平智能的系統 , 必須能夠在接收有限信息的情況下 , 準確重建原始內容 , 甚至完成合理補全與未來預測 。
中國電信人工智能研究院(TeleAI)將VAST視頻生成大模型與其正在布局和研究的一項重要技術“智傳網(AI Flow)”深度結合 , 提出了一種新型通信技術——生成式智能傳輸 , 也就是用“計算”換“帶寬” 。
智傳網(AI Flow)是人工智能(智)、通信(傳)、網絡(網)三項關鍵技術的融合 , 通過網絡分層架構 , 基于連接與交互 , 能夠實現智能的傳遞和涌現 。
在李學龍教授的帶領下 , TeleAI打造了包括智傳網(AI Flow)技術體系(包括生成式智能通信技術等)在內的 “一治+三智”戰略科研布局 , 其他方向還包括AI治理、智能光電(包括具身智能)、智能體 。
智傳網(AI Flow)的突破 , 有望解決通信業務中一個長期存在的難題——如何在極其有限的帶寬條件下 , 高效傳輸高質量的視頻和多媒體內容 。
這是困擾通信行業多年的技術瓶頸——傳統的視頻通信技術依賴高帶寬和高穩定性的網絡環境 , 一旦網絡不給力 , 立刻就卡成PPT、音畫不同步 。
像你我這樣的普通用戶 , 也經常會在生活中遇到類似問題 。 例如 , 在演唱會、會展等人員極為密集的場所 , 網絡擁堵常常導致視頻通話無法連接、直播卡頓 , 甚至連基本的視頻上傳和下載都變得困難 。
更不用說在高鐵、地下、飛機或遠洋、偏遠山區等極端條件下 , 視頻通信幾乎成為奢望 。 這些問題背后 , 正是現有通信技術在帶寬、穩定性和數據傳輸效率上的瓶頸 。
在本屆WAIC大會上 , TeleAI展示了基于智傳網(AI Flow)的生成式智能傳輸技術的典型案例——遠洋通信 , 破解了這一瓶頸 。
船舶與陸地的通信 , 長期以來是全球航海技術發展中的巨大挑戰 。 由于船上的衛星網很慢 , 信號很差 , 船員只能通過微信打字給家里報平安 , 無法進行視頻電話或刷短視頻、上視頻網站 。
通過生成式智能傳輸技術 , 讓遠洋視頻通話不再是奢望 , 它將變得簡單而高效 。 這項技術的應用 , 不僅連通了海洋與陸地 , 也讓船員們的業余時光告別了單調 , 擁有如同岸上般豐富的色彩 。
傳統視頻壓縮傳輸方式是把整段視頻原樣搬運 , 而生成式智能傳輸技術則采用了更聰明的辦法:通過TeleAI的多模態大模型 , 提取音視頻最關鍵的特征信息 , 壓縮編碼后 , 將這些信息發送給接收端 。
而在接收端 , TeleAI部署在本地的多模態生成大模型能根據上述信息 , 自主“腦補”出完整畫面 , 就像用草圖還原一副畫作一樣 。
這種壓縮傳輸方式相較傳統方案(如H.264+5G LDPC)展現出明顯優勢 。 在衛星場景下帶寬資源稀缺時 , 這個方案將帶寬需求壓縮了整整1-2個數量級 , 視頻數據體積最多可降至原始的1% , 在背景變化較小的場景中甚至可達千分之一 。
在船載服務器上的多模態生成大模型本地完成音視頻的智能還原后 , 畫質、音質可以保持“主觀無損”的水平 。 這就讓遠洋海員們即便在極低帶寬條件下 , 依然能夠實現清晰、流暢的視頻通話體驗 。
從部署角度來看 , 這項技術對硬件要求也非常友好——船只僅需搭載一臺配有4張消費級顯卡的本地服務器 , 便可為船員提供穩定的Wi-Fi視頻通話服務 。 這種輕量化部署 , 為未來的規模化落地提供了現實基礎 。
生成式智能傳輸不僅適用于遠洋通信 , 還是一整套可適配不同通信環境的解決方案 。 系統可根據不同場景下的帶寬、算力等資源條件 , 智能選擇不同大小的視頻解碼模型 。
例如 , 在多數通話場景中 , 僅使用480P分辨率和小模型即可實現流暢且清晰的通信體驗 , 從而實現算力與帶寬的最優協同 。
可以說 , 這項技術展現的并非某一項技術的單點突破 , 而是一種系統性的融合式創新 。 如果沒有VAST視頻生成技術的日益成熟 , 視頻信號根本壓縮不到這個程度;如果沒有智傳網(AI Flow)基礎構建 , 再精美的畫面也送不到用戶眼前 。
未來 , 通信不再是單純的信號搬運 , 而是理解與重建的過程 , 編碼的不再是比特 , 而是意義本身 。 生成式智能傳輸技術在遠洋通信的應用場景中已獲得驗證 , 在不久的未來 , 這項技術將進一步推廣 , 實現在飛機的機艙內撥打高清視頻會議 , 不因信號影響工作;野外露營時 , 也能收看精彩的球賽 , 不為生活留下遺憾 。
【國產視頻生成再突破!從影視級短片到遠洋親情連線,AI讓天涯變咫尺】這正是一場AI與通信的“雙向奔赴” , 也為構建高質量、低成本的未來多媒體通信基礎設施 , 提供了堅實的技術底座與實踐范本 。

    推薦閱讀