百度提出語音合成新模型,語音合成系統

這項技術適用于個人語音助理構建、游戲數字化角色設計、有聲讀物、殘疾人語音系統等語音內容表達 。根據我的實際使用經驗,給你推薦三款實用又簡單的語音合成軟件:朗讀女、Balabolka、TTS語音合成工具 。但我們不可否認,人工智能改善了語音合成技術 。
語音合成有哪些方法?

百度提出語音合成新模型,語音合成系統


讓聲音聽起來更自然,是語音合成的核心挑戰,即使目前最普遍的語音助手,如Siri或Alexa,一發聲給人的第一感覺仍然是,“哇!這是計算機!”背后原因在于這些語音助手系統的工作原理:根據預錄的聲音文檔整理出詞匯,再通過另一個新的音頻文檔將這些詞匯拼湊在一起發聲 ?,F在,人工智能改善了這個問題 。三名蒙特利爾大學的博士生創立的初創企業Lyrebird開發了一款智能語音合成軟件Lyrebird,可以復制人類的聲音,并用這個聲音合成其他聲音 。
【百度提出語音合成新模型,語音合成系統】這話聽起來比較繞,通俗點說,這款AI工具可以把你的聲音生成川普、奧巴馬、希拉里三個人的聲音來一段對話 。Lyrebird利用深度學習技術,能在1分鐘“傾聽”過程中“掌握”每個人說話時字母、音位和單詞的發音特點,通過推理并模仿這個人聲音中的情感和語調,“說”出全新的語句 。這項技術適用于個人語音助理構建、游戲數字化角色設計、有聲讀物、殘疾人語音系統等語音內容表達 。
當然,如果你深愛自己性感的嗓音并希望將一切文字內容都轉化為這種聲音,Lyrebird同樣能夠幫上大忙 。如下圖,Lyrebird應用需要30個句子(音頻長度約為1分鐘),來創建數字化語音輸出結果 。開發該系統的蒙特利爾大學學習算法實驗室博士后亞歷山大·布瑞比森表示,在學會并模仿了幾個人的聲音后,再模仿任何一個新對象的語音就會變得更快,因此新語音系統不需太多信息,1分鐘足以捕獲某個人聲音的核心特點 。
結果生成一段語音片段,既讀出了我錄制的聲音,又包含大量我在錄制過程中并未使用的詞語 。這種方式顯然限制了人們的想象力,不要妄想隨意上傳一段周杰倫的音頻,試圖生成以假亂真的其他語音內容,因為Lyrebird應用要求必須首先錄制它屏幕上顯示的句子,并且提供多種方式對提交的任何音頻加以分析,借此判斷音頻內容是否屬實或存在偽造跡象 。
然而就目前而言,Lyrebird生成的音頻可能還經不起詳細推敲——音頻取證專家完全能夠通過分析發現其中的異常與線索,從而驗證是否屬于合成產物——美國卡內基梅隆大學語言技術研究所教授迪莫·鮑曼指出,Lyrebird的語音系統和真正的人聲之間還有差距 ?!拔易屑毬犨^琴鳥系統的發聲,帶有背景噪音,以及微弱的機器人特征 。
而且,它還不能模仿人們在講話中的呼吸和唇部運動,因此仍然能聽出其計算機語音特征 。”他因此認為,語音系統真正令人信服地復制人聲,還需再等幾年 。另一個暴露的問題,我們還缺少用于分析偽造音頻的文化、習慣或者易于使用的成熟工具 。這意味著,偽造音頻的門檻很低,而發現虛假信息傳播者的難度也將因此而提高 。但我們不可否認,人工智能改善了語音合成技術 。
Lyrebird強調,獲得的音頻樣本越豐富,數字語音輸出結果質量就越好 。Lyrebird提到,其核心主旨在于為社會作出貢獻:我們向任何潛在用戶提供這項技術,為了逐步推出更為完善的方案以確保社會能夠適應這項技術,并立足積極層面取得良好效果——同時盡可能防止潛在的負面應用方式 。Lyrebird也提到,只要獲得他們的許可,可以為任何用戶提供高質量數字語音輸出結果 。

推薦閱讀