小說一鍵轉有聲?。《拱Z音團隊「AI多人有聲劇」,沉浸感拉滿了

小說一鍵轉有聲劇!豆包語音團隊「AI多人有聲劇」,沉浸感拉滿了

文章圖片

小說一鍵轉有聲?。《拱Z音團隊「AI多人有聲劇」,沉浸感拉滿了

文章圖片

小說一鍵轉有聲?。《拱Z音團隊「AI多人有聲劇」,沉浸感拉滿了

文章圖片

小說一鍵轉有聲?。《拱Z音團隊「AI多人有聲劇」,沉浸感拉滿了

文章圖片


機器之心發布
機器之心編輯部
「東州市第一監獄 , 犯人屠國安被獄警帶到了招待室 。
門一開 , 他看到有人背對著他 , 對方短發 , 身形纖瘦 , 姿態挺拔 , 在他的記憶里 , 并沒有這樣的熟人 。 」
這段文字源自一本知名的刑偵小說《遮云》 , 而下面這段音頻是對應章節的「有聲」版本 , 先聽聽:

在音頻最開始的一分鐘里 , 我們就聽到了人物對白和旁白解說 , 腳步、開門、坐下、手銬晃動和遞名片的聲音 , 背景音樂等多種元素 。 相比于單純地閱讀文字 , 聽書的沉浸感確實強了不少 。
如果說 , 這段聲情并茂的朗讀音頻都是由 AI 生成的呢?很多讀者可能會感到驚訝:「不知不覺 , AI 講書的水準已經進化到這個地步了?」
是的 , 這段「AI 講書」背后的配音和后期 , 來自豆包語音團隊近日發布的「AI 多人有聲劇」自動化方案 。 該方案不僅支持多角色、高表現力的 TTS 演播 , 同時也實現了全自動 AI 后期的鏈路 。
也就是說 , 從小說文本到高質量的多人有聲劇成品 , 全部由 AI 端到端完成 。 這意味著 , 基于該方案的有聲書生產制作成本和周期大幅降低 。 目前 , 首批由該方案端到端創作的有聲劇已經在番茄小說 App 上線 。
具體而言 , 這套方案基于新升級的多角色 Seed-TTS-2.0 模型 , 配合 AI 自動音樂、音效、特效和智能混音 , 在聽感效果上已經能夠媲美行業一流水準的真人有聲劇 。
當然 , 開篇的 Demo 只是該方案的眾多成果之一 , 讓我們再欣賞一些高光片段:

把小說變成多人有聲劇 , 總共分幾步?
小說作品通常具有充滿戲劇性的情節和極具感染力的臺詞 , 而將這些小說的文字內容轉化為有聲劇 , 同樣受到了很多讀者的歡迎 。
傳統多人有聲劇的制作周期較長 , 一般會持續數月 。 立項后需要先經過人工切分畫本并校準 , 設計配音角色表 , 并完成十幾甚至幾十個聲優錄制 。 隨后 , 后期人員會精修音頻 , 并在此基礎上進行音效、音樂和混音處理 , 完成母帶制作 , 最終輸出為專業的有聲劇成品 。
而豆包語音團隊提出的這套新方案 , 使得有聲書生產的制作成本和周期大幅降低 。 方案首先利用端到端多角色語音模型合成 TTS 音軌 , 基于音頻和后期畫本預測模型 , 進一步生成帶后期的有聲劇 。 后期音效包含特效、音樂、音效、環境音 , 通過智能混音技術平衡音軌 , 最終生產出完整的成品多人有聲劇 。

AI 一鍵生成多人有聲劇 , 如何媲美「真人配音 + 后期」?
在「多角色演播」和「AI 后期」等流程中 , 豆包語音團隊的「AI 多人有聲劇」自動化方案做到了高水準生成 。
首先是「多角色演播」的效果升級 。 這套方案支持從「小說文本」到「多角色智能朗讀音頻」的全自動生產 , 音色匹配和對話歸屬準確率超過 98% 。
在多人演播效果上 , 多角色 Seed-TTS-2.0 模型通過對海量文本與語音的多模態預訓練 , 原生地將文本和語音模態融合 , 憑借強大的文本理解能力和語音演繹能力 , 進一步提升了對小說的角色、情感、副語言等細膩的演繹效果 。 這種演繹效果的升級 , 源自于幾個創新點:
篇章級長上下文感知 , 進一步增加模型對上下文的感知范圍 , 對角色的理解更加到位; 歷史長音頻建模 , 模擬真實小說錄制場景 , 可感知所有上文音頻信息 , 各角色語音承接力、表現力進一步加強; 多輪思維鏈 (CoT) 推理 , 引入思維鏈信息 , 強化對當前角色、人設、情感、副語言的理解 , 打造更加細膩的演繹效果 , 帶來沉浸式的聽書體驗 。
當模型的上下文感知能力更深刻 , 所呈現的「人物情感」也就更精準了:
滿身是血的李子夜雙臂強行撐起 , 說道:“趁他還不能動 。 ”

再比如 , 小說文本中的「副語言」演繹效果有了顯著的提升:
“咯咯咯!我現在告訴你一個好消息 。 ”

此外 , 該方案創新地實現了「全自動 AI 后期」 。
我們知道 , 畫本對有聲書的制作非常重要 , 傳統人工方案需要根據劇本中的人物特點 , 在文本上標記強調詞、停頓點、角色轉換提示等 , 幫助配音者在演播過程中準確無誤地傳達信息 。 而「AI 多人有聲劇」方案能高效地實現從小說文本到帶有音效、人聲特效、環境音、配樂的畫本預測 。

其中 , 「人聲特效預測」能夠結合說話人信息 , 預測是否添加特效以及特效內容 , 準確度接近 100%;動作音效預測基于 AED(音頻事件檢測)技術構建動作音效體系 , 在篇章級別的預測中避免劇情撞車的問題 , 實現時間軸精準對齊;環境識別預測能夠在環境渲染可實現智能的淡入淡出 , 豐富后期效果的同時 , 保持情節和情緒的穩定性 , 完美適配 TTS 時長;在配樂設計層面 , 方案包含的小說智能配樂系統 , 能夠為不同題材匹配最佳 BGM ,配樂與劇情情緒同步、章節收尾自然 , 可以很好地烘托劇情氛圍 。
方案包含智能動態混音策略 , 做到了整體聽感的自然統一與音質清晰度的最優平衡 。 在智能動態平衡與響度控制上 , 方案能夠實時分析人聲軌的能量與響度 , 使用側鏈壓縮技術通過人聲自適應壓低 BGM 與環境音 , 讓對白始終清晰突出 , 并通過內容感知的動態范圍與響度標準化處理 , 確保成品在不同設備上始終保持一致、自然、專業的聽感 。

據了解 , 「AI 多人有聲劇」自動化方案未來將持續升級 , 覆蓋更多精品內容 , 為更多用戶帶來優質的聽書體驗 。
【小說一鍵轉有聲?。《拱Z音團隊「AI多人有聲劇」,沉浸感拉滿了】文中音頻鏈接:https://mp.weixin.qq.com/s/g1A_U9R6oqxhL1t6tIz0BA

    推薦閱讀