告別「面癱」配音，InfiniteTalk開啟從口型同步到全身表達新范式

2025-08-28 14:05 面癱

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

傳統 video dubbing 技術長期受限于其固有的 “口型僵局” ，即僅能編輯嘴部區域，導致配音所傳遞的情感與人物的面部、肢體表達嚴重脫節，削弱了觀眾的沉浸感。現有新興的音頻驅動視頻生成模型，在應對長視頻序列時也暴露出身份漂移和片段過渡生硬等問題。為解決這些痛點， Infinitetalk 引入 “稀疏幀 video dubbing” 。

這一新范式從根本上重新定義了 video dubbing ，將其從簡單的 “嘴部區域修復” 轉變為 “以稀疏關鍵幀為引導的全身視頻生成” 。該模型不僅能夠實現口型與配音的精準同步，更實現了面部表情、頭部轉動和肢體語言與音頻所表達情感的自然對齊，消除長視頻生成中的累積誤差和突兀過渡。

InfiniteTalk 是由美團視覺智能部主導研發的新型虛擬人驅動技術，技術論文、代碼、權重已開源。美團視覺智能部能圍繞豐富的本地生活電商場景，建設從基礎通用到細分領域的視覺技術能力，包括視覺生成大模型、多模交互虛擬人，助力營銷創意生產和商家低成本直播；文檔、商品、安全多模態大模型，助力商家開店經營、平臺商品治理和違規賬號治理；人臉識別、文字識別、細粒度圖像分析、高性能檢測分割、街景理解成為公司基礎設施能力。

項目主頁：https://meigen-ai.github.io/InfiniteTalk/ 開源代碼：https://github.com/MeiGen-AI/InfiniteTalk 技術報告：https://arxiv.org/abs/2508.14033
我們先看示例：

一、引言 ——video dubbing 的一個長期痛點

長期以來， video dubbing 一直面臨一個核心的 “僵局”—— 其編輯范圍的局限性。傳統的 video dubbing 技術，例如 MuseTalk 和 LatentSync ，通常專注于對嘴部區域進行 “修復式” 編輯，以實現口型與新音頻的同步。這種方法的主要局限在于，它幾乎不觸及人物的面部表情、頭部轉動和肢體動作。

這種 “局部編輯” 的策略導致了一個嚴重的矛盾：當配音表達出強烈的情感（例如激動、憤怒或喜悅）時，視頻中人物的身體姿態卻保持著僵硬或靜止狀態。例如，一段充滿激情的對話，人物卻只是面部肌肉輕微抽動，身體保持紋絲不動。這種視聽信息的不一致性會嚴重破壞觀眾的沉浸感，使生成的視頻顯得不自然，缺乏說服力。這種矛盾感的存在，從根本上制約了配音視頻的質量，并成為內容創作者亟待解決的難題。如圖 1 所示。

隨著人工智能技術的發展，一些音頻驅動的視頻生成模型應運而生，試圖解決這一問題。然而，直接將這些模型應用于長 video dubbing 任務，同樣暴露出新的、且同樣關鍵的挑戰。

首先是基于圖像轉視頻（Image-to-Video I2V）的方法。這類模型通常以視頻的首幀圖像作為初始參考，然后根據音頻生成后續的視頻序列。雖然這種方法在理論上提供了更大的動作自由度，但它存在嚴重的 “累積誤差” 問題，如圖 2 (left) 。由于模型缺乏持續的原始關鍵幀作為錨定，在生成較長的視頻序列時，人物的身份特征（如面部細節、發型等）會逐漸偏離源視頻，甚至背景的色調也可能發生不可控的偏移，導致視頻質量隨時間推移而下降。

其次是基于首末幀轉視頻（First-Last-frame-to-Video FL2V）的方法。該方法試圖通過同時使用視頻片段的起始幀和終止幀作為參考來解決累積誤差。然而，這種策略帶來了另一個問題：過渡生硬，如圖 2（right）。 FL2V 模型生成過程缺乏從前一片段向后一片段傳遞的 “動量信息” ，不同視頻片段之間的動作銜接會顯得突兀和不自然，打破了視頻流的連續性。與此同時，其過于嚴格地遵循固定的參考幀，強制生成的視頻在片段（chunk）的邊界上精確復制參考幀的姿態，即使這種姿態與新音頻的情感或節奏相悖。

這兩種主流 AI 方案的局限性揭示了一個核心矛盾：即 “局部編輯的僵硬” 與 “全局生成的失控” 。傳統方法因編輯范圍狹窄而僵硬，而新興的 AI 生成模型則在長視頻的連貫性上遭遇了挑戰。

二、新的范式：稀疏幀 video dubbing

為了從根本上解決上述挑戰， Infinitetalk 引入了一個全新的技術范式 ——“稀疏幀 video dubbing” 。這一范式徹底改變了 video dubbing 的技術哲學：它不再將任務定義為對嘴部區域的 “修復”（inpainting），而是將其重構為一場 “以稀疏關鍵幀為引導的全身視頻生成” 。其核心理念在于，不是逐幀地、僵硬地復制源視頻，而是策略性地僅保留和利用源視頻中的少數關鍵?。 ╯parse keyframes）作為核心參考。這些關鍵幀如同 “視覺錨點” ，在生成過程中發揮著至關重要的作用。

為了應對無限長度的視頻序列生成任務， InfiniteTalk 采用了流式（streaming）生成架構，整體網絡框架如圖 4 所示。其工作原理是將一個超長視頻分解為多個小的、可管理的視頻片段（chunks），然后逐一進行生成。然而，與簡單的分段生成不同， InfiniteTalk 的核心在于其精巧設計的 “上下文幀”（context frames）機制。

當模型生成一個新片段時，它不僅僅依賴于源視頻的參考幀，還會利用上一段已生成視頻的末尾幀作為下一段生成的 “動量信息” 。這些上下文幀為新片段的生成提供了必要的 “時間上下文” ，使其能夠承接前一片段的運動趨勢和動態，確保動作的連續性和流暢性。這一機制如同接力賽中的接力棒，將前一棒的沖刺動量無縫傳遞給下一棒，從而徹底解決了傳統 FL2V 模型中因缺乏動量信息而導致的片段間突兀過渡問題。通過流式架構和上下文幀機制的結合， InfiniteTalk 成功地將 “片段生成” 任務提升為 “連續流生成” ，這是其實現 “無限長度” 生成能力的技術基石。

在 “稀疏幀 video dubbing” 范式下，一個關鍵的挑戰是如何在 “自由表達” 與 “跟隨參考” 之間找到微妙的平衡。過于嚴格地復制參考?。ㄈ?M1 策略）會導致生成的動作僵硬，而如果控制過于松散（如 M2 策略），則又會面臨身份和背景失真等問題。 InfiniteTalk 的核心策略是采用一種 “軟條件”（soft conditioning）控制機制。該機制的核心發現是，模型的控制強度并非固定不變，而是由 “視頻上下文和參考圖像的相似度” 所決定。基于這一發現， Infinitetalk 設計了一種獨特的采樣策略，通過 “細粒度的參考幀定位”（fine-grained reference frame positioning）來動態調整控制強度，從而在動作自然度與參考幀的保真度之間取得平衡。

如表 3 所示， M0 策略因隨機采樣而控制強度過高，導致模型不恰當地復制參考動作，削弱了同步性。 M1 策略雖然在視覺質量上表現尚可，但在同步性上表現較差，因為它過于嚴格地復制了邊界幀。 M2 策略因參考幀與上下文幀的時間距離過遠，導致模型對身份和背景的控制力不足，最終在視覺質量（FID、FVD）上表現最差。

最終被采納的 M3 策略，通過在訓練中從鄰近分塊（adjacent chunks）中采樣參考幀，找到了一個 “最優平衡點”（optimal equilibrium）。這種策略既能確保模型在視覺上遵循源視頻的風格，又能賦予模型根據音頻動態生成全身動作的自由。

此外，該模型還能通過集成 SDEdit 或 Uni3C 等插件，實現對源視頻中微妙的鏡頭運動（camera movement）的精確保留。這一點至關重要，因為它確保了生成的視頻不僅人物動作自然，連畫面的構圖和運鏡都與源視頻保持一致，進一步提升了視頻的真實感和連貫性。

三、實驗數據與視覺實證

為了全面驗證 InfiniteTalk 的性能，將其與多個方法進行了對比。

不同相機控制方法的對比：

四、結語與展望

【告別「面癱」配音，InfiniteTalk開啟從口型同步到全身表達新范式】InfiniteTalk 成功解決了 “僵硬” 與 “斷裂” 兩大痛點。其核心技術 —— 流式生成架構、軟條件控制以及全方位同步能力，共同為高質量、長序列的視頻內容生成提供了新的解決方案。在短視頻創作、虛擬偶像、在線教育以及沉浸式體驗等領域，這項技術可以為創作者提供強大的工具，以更低的成本、更高的效率生成富有表現力的動態內容，徹底打破現有制作流程的瓶頸。

推薦閱讀

上一篇：卡薩帝電視推出MiniLED頂配屏黑晶屏Ultra畫質與流暢雙巔峰

下一篇：36氪CEO馮大剛發表主辦方致辭 | 36氪2025AI Partner百業大會