小說一鍵轉有聲?。《拱Z音團隊「AI多人有聲劇」，沉浸感拉滿了

2026-03-04 人工智能 ai 自動化

文章圖片

文章圖片

文章圖片

文章圖片

機器之心發布
機器之心編輯部
「東州市第一監獄，犯人屠國安被獄警帶到了招待室。
門一開，他看到有人背對著他，對方短發，身形纖瘦，姿態挺拔，在他的記憶里，并沒有這樣的熟人。」
這段文字源自一本知名的刑偵小說《遮云》，而下面這段音頻是對應章節的「有聲」版本，先聽聽：

在音頻最開始的一分鐘里，我們就聽到了人物對白和旁白解說，腳步、開門、坐下、手銬晃動和遞名片的聲音，背景音樂等多種元素。相比于單純地閱讀文字，聽書的沉浸感確實強了不少。
如果說，這段聲情并茂的朗讀音頻都是由 AI 生成的呢？很多讀者可能會感到驚訝：「不知不覺， AI 講書的水準已經進化到這個地步了？」
是的，這段「AI 講書」背后的配音和后期，來自豆包語音團隊近日發布的「AI 多人有聲劇」自動化方案。該方案不僅支持多角色、高表現力的 TTS 演播，同時也實現了全自動 AI 后期的鏈路。
也就是說，從小說文本到高質量的多人有聲劇成品，全部由 AI 端到端完成。這意味著，基于該方案的有聲書生產制作成本和周期大幅降低。目前，首批由該方案端到端創作的有聲劇已經在番茄小說 App 上線。
具體而言，這套方案基于新升級的多角色 Seed-TTS-2.0 模型，配合 AI 自動音樂、音效、特效和智能混音，在聽感效果上已經能夠媲美行業一流水準的真人有聲劇。
當然，開篇的 Demo 只是該方案的眾多成果之一，讓我們再欣賞一些高光片段：

把小說變成多人有聲劇，總共分幾步？
小說作品通常具有充滿戲劇性的情節和極具感染力的臺詞，而將這些小說的文字內容轉化為有聲劇，同樣受到了很多讀者的歡迎。
傳統多人有聲劇的制作周期較長，一般會持續數月。立項后需要先經過人工切分畫本并校準，設計配音角色表，并完成十幾甚至幾十個聲優錄制。隨后，后期人員會精修音頻，并在此基礎上進行音效、音樂和混音處理，完成母帶制作，最終輸出為專業的有聲劇成品。
而豆包語音團隊提出的這套新方案，使得有聲書生產的制作成本和周期大幅降低。方案首先利用端到端多角色語音模型合成 TTS 音軌，基于音頻和后期畫本預測模型，進一步生成帶后期的有聲劇。后期音效包含特效、音樂、音效、環境音，通過智能混音技術平衡音軌，最終生產出完整的成品多人有聲劇。

AI 一鍵生成多人有聲劇，如何媲美「真人配音 + 后期」？
在「多角色演播」和「AI 后期」等流程中，豆包語音團隊的「AI 多人有聲劇」自動化方案做到了高水準生成。
首先是「多角色演播」的效果升級。這套方案支持從「小說文本」到「多角色智能朗讀音頻」的全自動生產，音色匹配和對話歸屬準確率超過 98% 。
在多人演播效果上，多角色 Seed-TTS-2.0 模型通過對海量文本與語音的多模態預訓練，原生地將文本和語音模態融合，憑借強大的文本理解能力和語音演繹能力，進一步提升了對小說的角色、情感、副語言等細膩的演繹效果。這種演繹效果的升級，源自于幾個創新點：
篇章級長上下文感知，進一步增加模型對上下文的感知范圍，對角色的理解更加到位；歷史長音頻建模，模擬真實小說錄制場景，可感知所有上文音頻信息，各角色語音承接力、表現力進一步加強；多輪思維鏈 (CoT) 推理，引入思維鏈信息，強化對當前角色、人設、情感、副語言的理解，打造更加細膩的演繹效果，帶來沉浸式的聽書體驗。
當模型的上下文感知能力更深刻，所呈現的「人物情感」也就更精準了：
滿身是血的李子夜雙臂強行撐起，說道：“趁他還不能動。 ”

再比如，小說文本中的「副語言」演繹效果有了顯著的提升：
“咯咯咯！我現在告訴你一個好消息。 ”

此外，該方案創新地實現了「全自動 AI 后期」。
我們知道，畫本對有聲書的制作非常重要，傳統人工方案需要根據劇本中的人物特點，在文本上標記強調詞、停頓點、角色轉換提示等，幫助配音者在演播過程中準確無誤地傳達信息。而「AI 多人有聲劇」方案能高效地實現從小說文本到帶有音效、人聲特效、環境音、配樂的畫本預測。

其中，「人聲特效預測」能夠結合說話人信息，預測是否添加特效以及特效內容，準確度接近 100%；動作音效預測基于 AED（音頻事件檢測）技術構建動作音效體系，在篇章級別的預測中避免劇情撞車的問題，實現時間軸精準對齊；環境識別預測能夠在環境渲染可實現智能的淡入淡出，豐富后期效果的同時，保持情節和情緒的穩定性，完美適配 TTS 時長；在配樂設計層面，方案包含的小說智能配樂系統，能夠為不同題材匹配最佳 BGM ，配樂與劇情情緒同步、章節收尾自然，可以很好地烘托劇情氛圍。
方案包含智能動態混音策略，做到了整體聽感的自然統一與音質清晰度的最優平衡。在智能動態平衡與響度控制上，方案能夠實時分析人聲軌的能量與響度，使用側鏈壓縮技術通過人聲自適應壓低 BGM 與環境音，讓對白始終清晰突出，并通過內容感知的動態范圍與響度標準化處理，確保成品在不同設備上始終保持一致、自然、專業的聽感。

據了解，「AI 多人有聲劇」自動化方案未來將持續升級，覆蓋更多精品內容，為更多用戶帶來優質的聽書體驗。
【小說一鍵轉有聲?。《拱Z音團隊「AI多人有聲劇」，沉浸感拉滿了】文中音頻鏈接：https://mp.weixin.qq.com/s/g1A_U9R6oqxhL1t6tIz0BA

推薦閱讀

上一篇：「不僅會想，還能準確去做」VLA-R1把「推理+行動」帶進真實世界

下一篇：上交、清華、微軟、上海AI Lab等聯合發布數據分析智能體綜述