
文章圖片

文章圖片

文章圖片

文章圖片
小紅書智創音頻技術團隊近日發布新一代對話合成模型 FireRedTTS-2 。 該模型聚焦現有方案的痛點:靈活性差、發音錯誤多、說話人切換不穩、韻律不自然等問題 , 通過升級離散語音編碼器與文本語音合成模型全面優化合成效果 。 在多項主客觀測評中 , FireRedTTS-2 均達到行業領先水平 , 為多說話人對話合成提供了更優解決方案 。
論文標題:FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot 技術報告:https://arxiv.org/pdf/2509.02020 Demo 鏈接:https://fireredteam.github.io/demos/firered_tts_2/ 代碼鏈接:https://github.com/FireRedTeam/FireRedTTS2
效果 Demo
一開口就像真人 , 播客生成不在話下 。 先來聽一段 “Taylor Swift 戀愛消息” 的播報 , 你能分出這是真實錄音還是 AI 合成嗎?
答案揭曉!上方視頻的聲音并非真人 , 而是由基于數百萬小時語音數據訓練的 FireRedTTS-2 合成的播客音頻 。 它對重音、情緒、停頓等細節把握到位 , 聽感自然流暢 。 相比閉源的豆包 , FireRedTTS-2 的播客生成自然度可與之媲美;更重要的是 , 它還支持豆包不具備的音色克隆能力:只需提供對話中每個發音人的一句語音樣本 , 模型即可模仿其音色與說話習慣 , 自動生成后續整段對話 。 在開源對話生成模型中(如 MoonCast、ZipVoice-Dialogue、MOSS-TTSD) , FireRedTTS-2 在多說話人音色切換的穩定性與韻律自然度方面處于行業領先 , 為 AI 播客等對話合成應用提供了工業級解決方案 。
隨著多模態大模型的快速發展 , 全行業對數據的需求與日俱增 , 尤其在語音識別與對話交互領域 , 訓練需要大規模的多音色、跨語言音頻數據 。 FireRedTTS-2 不僅支持隨機音色生成 , 還開箱即用地覆蓋中文、英語、日語、韓語、法語等多種語言 。 因此 , 它既能滿足創新玩法的探索 , 也可作為高效的生產力工具 , 為下游任務生成高質量的對話 / 非對話音頻數據 。 下方視頻展示了不同隨機音色、不同語言的生成效果 。
對話合成背景
近來 , 多說話人對話合成被廣泛應用于播客生成等下游應用場景 。 在實現方式上 , 傳統方法通常先按說話人將對話切分 , 逐句獨立合成后再拼接 。 這樣的做法不僅繁瑣 , 還容易導致句間韻律斷裂 , 尤其在句子銜接處尤為不自然 。
盡管目前出現了一些方法可以建模整段對話 , 但它們往往要求輸入完整對話文本 , 并一次性輸出包含所有說話人的整段語音 , 難以支持逐句生成 。 這不僅增加了后續編輯與處理的難度 , 也因其不夠靈活而不利于在交互式對話場景中應用 。 此外 , 這類方法的合成質量仍不穩定 , 常見問題包括發音錯誤、句子間說話人身份混淆以及合成的語音韻律不夠自然 。
FireRedTTS-2 系統簡介
為解決當前對話合成系統存在的靈活性不足、合成質量欠佳等問題 , FireRedTTS-2 升級了 TTS 系統的兩大核心模塊:
離散語音編碼器(Speech tokenizer):12.5Hz 低幀率 , 具有更強語義信息 , 且支持流式解碼 文本語音合成模型(Text-to-speech model):支持逐句生成 , 合成穩定且質量高 【SOTA對話生成模型FireRedTTS-2來了,輕松做出AI播客!】
離散語音編碼器
離散語音編碼器將連續語音信號壓縮為離散標簽序列 , 便于大語言模型處理 。 FireRedTTS-2 采用的語音編碼器以 12.5Hz 的低幀率輸出:即 1 秒僅對應 12.5 個標簽 。 對于對話建模 , 這縮短了語音序列長度、即提升了速度 , 又縮小了與文本序列的長度差距 , 降低了大語言模型的建模難度 。 為增強語義表達 , 編碼器在訓練時引入預訓練模型提取的語義特征 , 并對離散標簽進行語義監督 , 使標簽攜帶更豐富的語義信息 , 幫助模型更容易學會從文本到語音的映射 。 除此之外 , 它還支持流式解碼 , 可實時輸出音頻 , 便于無縫接入各類流式交互應用 。
在訓練策略上 , 離散語音編碼器先在約 50 萬小時的多樣化語音數據上訓練 , 以提升泛化能力;再在其中約 6 萬小時的高質量語音上繼續訓練 , 優化重建音質 。
文本語音合成模型
為提升對話合成的靈活性 , FireRedTTS-2 采用文本 - 語音混排的格式 , 支持逐句生成 , 便于后續編輯與多場景適配 。 混排格式將對話文本與語音組織為:“[S1
說話人 1 文本 + 語音 [S2
說話人 2 文本 + 語音 [S3
說話人 3 文本 + 語音…” , 其中 [S1
、[S2
、[S3
為說話人標簽 , 用于區分不同角色 。
在模型架構上 , 為更充分地利用對話上下文 , FireRedTTS-2 采用 “雙 Transformer ” 的設計:
1.5B 參數的 Backbone Transformer 負責建模混排序列中語音的粗粒度信息 0.2B 參數的 Decoder Transformer 補充語音中的聲學細節
相比常用的 Delay pattern 方法 , 該架構充分利用了上下文中的文本與語音 , 可以生成更自然、連貫的對話語音;同時支持低首包延遲 , 配合離散語音編碼器的流式解碼 , 實現更快起播 。
FireRedTTS-2 采用兩階段訓練:先在 110 萬小時單句語音上預訓練 , 夯實合成基?。 輝儆?30 萬小時對話語音繼續訓練 , 覆蓋 2–4 人對話場景 。 由此可穩定生成高質量對話語音 , 準確處理說話人切換 , 保持上下文一致與自然韻律 。 面向應用場景 ,FireRedTTS-2 僅需少量數據即可實現微調 , 快速完成音色定制 。
FireRedTTS-2 效果比較
為評估對話合成效果 , FireRedTTS-2 與 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等其他系統在自建的中英文對話測試集上進行了比較:
客觀上 , 比較了對話合成的正確率(CER/WER)、對話間說話人保持能力(SIM)、以及與真實錄音之間的差距(MCD) 主觀上 , FireRedTTS-2 與其他系統進行了偏好打分(CMOS)
結果顯示 , FireRedTTS-2 在主客觀指標上均為最優 , 顯著降低發音錯誤 , 避免說話人混淆 , 具有更真實的韻律表現 , 為對話合成提供了更優解 。
同時 , FireRedTTS-2 只需約 50 小時的特定播客說話人錄音即可完成音色定制 , 使對話合成的自然度逼近真人 。 在自建中文對話測試集上 , 我們開展了客觀(CER)與主觀(自然度偏好)評測:微調后 CER 僅為 1.66%;主觀聽評中 , 28% 的測例被認為比真實播客錄音更自然 , 另有 28% 難以區分二者 。 總體來看 , 56% 的測例表明其自然度已達到或超過真實錄音 。
總結與展望
FireRedTTS-2 針對當前對話合成的兩大痛點:無法逐句生成(靈活性差)與合成質量不穩定(發音錯誤、說話人切換混亂、韻律不自然) , 升級了兩項關鍵模塊 。
離散語音編碼器:低幀率、語義信息豐富 , 縮短語音序列、降低長對話建模難度并提升穩定性;支持流式解碼 , 適配實時場景 。 文本語音合成模型:采用文本 - 語音混排輸入 , 支持逐句生成;雙 Transformer 架構充分利用文本與歷史語音上下文 , 合成更自然、連貫的對話語音;具備低首包延遲 , 配合編碼器的流式解碼實現快速起播 。
從結果上看 , FireRedTTS-2 在各項主客觀指標上均優于 MoonCast、ZipVoice-Dialogiue、MOSS-TTSD 等系統 , 為對話生成提供了更優的解法 。 未來團隊將持續優化 FireRedTTS-2 , 拓展支持的說話人人數與支持的語種 , 并解鎖可控音效插入等更多玩法 。
推薦閱讀
- 英偉達新GPU,超長上下文/視頻生成專用
- 獨家|對話網商銀行CIO高嵩:AI應用要找高價值場景
- 基于通義萬相 美圖多款APP上線動漫特效、AI變身等視頻生成功能
- 拍照直接生成講視頻,小藝深度解題Agent的可視化解題功能太神了
- 首個接入GPT-5的視頻Agent!一句話生成廣告大片,分鏡配音全包了
- 聯想三高管IFA2025深度對話:AI如何重構PC形態與全球化品牌矩陣
- 對話聯想德國業務負責人:一年月200億營收背后的生意經
- 剛剛,阿里首個超萬億參數新王登基!Qwen3-Max屠榜全SOTA
- Denodo聲稱DeepQuery能超越生成式AI的表面洞察
- 對話釘釘無招:用AI,打碎一個7億用戶的產品
