B站持續完善海外用戶產品體驗,用戶可體驗原汁原味多語種視頻

B站持續完善海外用戶產品體驗,用戶可體驗原汁原味多語種視頻

文章圖片


【B站持續完善海外用戶產品體驗,用戶可體驗原汁原味多語種視頻】自今年5月嗶哩嗶哩(以下簡稱B站)宣布將下架原國際版APP , 與國內版合并為一個統一APP后 , B站的出海下一步便引來各方關注 。 在今年的世界人工智能大會上 , B站公布了其為服務海外用戶而全新自研的「AI原聲翻譯功能」 , 以便海外用戶更好體驗游戲、科技、二次元等主推內容 。 在完成了APP合并、海外用戶頁面多語種適配、特別是視頻原聲翻譯功能上線后 , B站似乎已經做好準備蓄力開拓海外市場 。
海外用戶頁面
本次發布的「AI原聲翻譯」功能--除了自動擦除中文字幕改為英文、彈幕翻譯及各類按鈕英文適配等基礎的文本互譯之外 , 還能完美還原UP主的聲線、音色、氣口 , 而非傳統的機器音翻譯 , 同時還能基于翻譯語言進行口型模擬 。 這意味著在未來中文用戶觀看外語UP主視頻或海外用戶觀看中文UP主視頻時能無差別體驗原汁原味的“本地化”翻譯視頻 。 后續 , B站還將視需求把日語等語言加入「AI原聲翻譯」功能中 , 持續擴展在海外市場的適配能力 。
AI原聲翻譯開啟頁面
據悉 , 目前B站「AI原聲翻譯功能」中 , 跨語言聲音還原技術源自內部代號為「 IndexTTS2」的語音生成模型, 其整體框架如下圖所示 。 該模型引入了一種新穎、通用且兼容自回歸架構的語音時長及情感控制方法 。 該方法支持指定token數量 , 從而實現對語音時長的精確調控 , 降低了翻譯任務的難度 。 另外對情感表達與說話人身份進行了有效解耦 , 實現了高質量地復刻原片語音中蘊含的情感 。
為攻克「AI原聲翻譯功能」中的核心挑戰——尤其在游戲、二次元等專名梗點密集領域——實現原風格精準保留與語音時長完美對應 , B站技術團隊基于大語言模型(LLM)構建翻譯引擎 , 獨創性基于語音時長匹配、原聲翻譯標準與UP主獨特風格構建多目標獎勵模型 , 并采用對抗式強化學習(RL)訓練驅動模型持續進化與精準適配 。 同時 , 引入Deep Research深度挖掘技術 , 專攻專有名詞與流行梗點的翻譯難點 , 確保最終譯文準確、地道、傳神 。 字幕擦除部分則結合了先進的多模態大模型OCR技術和基于STTN網絡的視頻重繪技術 , 實現字幕區域的精準檢測與與高還原度擦除 。
— 完 —
量子位 QbitAI
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀