??B站開源IndexTTS-2.0:突破自回歸TTS時長與情感控制瓶頸

??B站開源IndexTTS-2.0:突破自回歸TTS時長與情感控制瓶頸

文章圖片


【??B站開源IndexTTS-2.0:突破自回歸TTS時長與情感控制瓶頸】近日 , 嗶哩嗶哩(B站)Index團隊正式宣布 , 其自主研發的情感可控、時長可調的自回歸零樣本文本轉語音(TTS)系統——IndexTTS-2.0 , 已全面開源 。
該系統的發布被廣泛視為零樣本TTS技術邁向實用化階段的關鍵里程碑 。

在語音合成領域 , 精準的時長控制與自然的情感表達一直是長期存在的技術難題 。
IndexTTS-2.0 在這一背景下推出兩項核心創新:
時間編碼機制:首次在自回歸TTS架構中引入時間編碼 , 有效解決了傳統模型在語音時長控制上精度不足的問題 , 實現了更穩定、更自然的語音節奏調控; 音色與情感解耦建模:通過創新性的解耦建模方式 , 系統支持多維度靈活的情感調節 。 用戶不僅可基于單一音頻參考 , 還能通過獨立的情感參考音頻、情感向量或文本描述等多種方式 , 精準調控合成語音的情感表達 , 顯著提升生成語音的表現力與適用性 。基于上述技術架構 , IndexTTS-2.0在語音生成方面表現出極高的靈活性 。

從官方示例來看 , 該系統可廣泛應用于AI配音、有聲讀物、動態漫畫、視頻翻譯、語音對話及播客制作等多種場景 , 極大拓展了語音合成技術的創作與應用邊界 。
尤其值得關注的是 , IndexTTS-2.0為全球內容出海提供了重要技術支撐 。
憑借高質量的情感復現與精準的時長匹配 , 跨語言視頻可實現近乎“無差別”的本地化體驗 。
無論是海外用戶觀看中文視頻 , 還是中文用戶聆聽外語內容 , 均能在保留原聲風格與情感的基礎上 , 獲得更加自然、沉浸的聽覺體驗 。
這一突破不僅大幅降低了優質內容跨語言傳播的門檻 , 也為AIGC技術在全球范圍內的落地提供了堅實基礎 。
目前 , IndexTTS-2.0 已同步開源項目論文、完整代碼、模型權重及在線體驗頁面 。
IndexTTS團隊表示 , 未來將持續推進模型性能優化 , 并逐步釋放更多資源與工具 , 與開發者社區共同構建開放、繁榮的語音技術生態 , 助力推動多語種交流與全球文化互聯互通 。
GitHub地址:
GitHub - index-tts/index-tts: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
論文地址:
[2506.21619
IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
Demo展示地址:
IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
模型下載地址:
魔搭社區|IndexTTS-2Hugging Face| IndexTTS-2
在線體驗地址:
https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo
— 完 —
量子位 QbitAI · 頭條號
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀