剛剛,字節掏出AI同傳模型王炸,2秒延遲,0樣本復刻你的聲音

剛剛,字節掏出AI同傳模型王炸,2秒延遲,0樣本復刻你的聲音

文章圖片

剛剛,字節掏出AI同傳模型王炸,2秒延遲,0樣本復刻你的聲音

文章圖片

剛剛,字節掏出AI同傳模型王炸,2秒延遲,0樣本復刻你的聲音

文章圖片

剛剛,字節掏出AI同傳模型王炸,2秒延遲,0樣本復刻你的聲音

文章圖片



作者 江宇
編輯 漠影
智東西7月24日報道 , 今日 , 字節跳動Seed團隊正式推出端到端同聲傳譯模型Seed LiveInterpret 2.0 。
這是首個在翻譯準確率、語音延遲與聲音復刻三方面同時逼近專業同傳表現的產品級中英語音同傳系統 。

在中英互譯任務中 , Seed LiveInterpret 2.0已達到業界最優水平(SOTA) , 其譯文質量、響應速度與音色還原能力 , 在多項主客觀評測中均表現突出 。
該系統采用全雙工語音理解與生成框架 , 支持“邊聽邊說”的實時傳譯 , 語音延遲最低可至2到3秒 。 同時 , 它具備0樣本聲音復刻能力 , 無需預錄音 , 即可用說話者的音色“說出”外語 。
當前 , Seed LiveInterpret 2.0已通過火山引擎開放試用 , 用戶可登錄控制臺體驗語音模型“Doubao-同聲傳譯2.0” 。
此外 , Ola Friend耳機也計劃于8月底接入該系統 , 成為首個支持其語音同傳能力的硬件設備 。
技術報告與體驗指路:
技術報告:http://arxiv.org/pdf/2507.17527
項目主頁:https://seed.bytedance.com/seed_liveinterpret
體驗鏈接:登錄火山引擎后 , 選擇語音模型“Doubao-同聲傳譯2.0”https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI
一、全雙工語音生成框架 , 實現真正“邊聽邊說”
字節Seed團隊曾在2024年推出初代模型CLASI , 解決了文本同傳的時延與專業性問題 , 但仍不支持語音輸出 。
【剛剛,字節掏出AI同傳模型王炸,2秒延遲,0樣本復刻你的聲音】時隔一年 , 團隊在模型結構、語音生成與訓練策略上持續優化 , 最終推出Seed LiveInterpret 2.0 , 首次實現“邊聽邊說”的語音到語音同傳 。
Seed LiveInterpret 2.0引入了雙通路(duplex)語音理解與生成架構 , 這一端到端方案減少了中間環節 , 在處理效率和翻譯準確率上表現更優 。 系統能邊接收源語言語音輸入 , 邊生成目標語言語音輸出 , 且可實時處理多人說話場景 。

▲Seed LiveInterpret 2.0的雙通路(duplex)語音理解與生成架構(圖源:字節跳動Seed)
尤其值得注意的是 , 相比傳統同傳系統需等待語音識別完成再生成譯文 , Seed LiveInterpret 2.0可在聽音過程中同步生成目標語音 , 實現平均約2.5秒內完成首個譯句輸出(FLAL) , 顯著接近人類同傳表現 。

▲圖為語音到語音同傳任務中 , Seed LiveInterpret 2.0與主流系統在翻譯質量與延遲表現上的對比 。 (圖源:技術報告)
實測結果顯示 , 其語音翻譯延遲可低至2到3秒 , 相比傳統機器同傳系統平均減少了超過60%的等待時間 , 實現真正的“邊聽邊說” 。
二、強化學習上場 , 翻譯更智能、延遲再壓縮
盡管早期版本Seed LiveInterpret 1.0在文本同傳已有不俗表現 , 但如何兼顧音頻輸出的節奏感與準確度 , 始終是AI同傳系統的關鍵難題 。
為此 , 字節Seed團隊引入強化學習機制 , 在延遲、譯文準確率和節奏控制上進行聯合建模優化 。
據技術報告描述 , 團隊設計了融合單步反饋與全局反饋的雙重獎勵機制 , 分別用于保障片段級語義一致性和整體譯文的邏輯連貫性 。
在訓練方法上 , 團隊采用了兩階段流程:先通過單步獎勵預熱模型 , 學習人類譯員的翻譯策略 , 再利用全局獎勵機制優化模型對整體語義與響應延遲的控制 。
這一機制顯著降低了模型生成輸出的滯后時間 。 如在長文本中譯英任務中 , 經過RL優化后的Seed LiveInterpret 2.0將語音輸出延遲從3.90秒降至2.37秒 , 翻譯質量得分也從75.1提升至79.5 。

▲圖為RealSI長文本同傳基準下的系統性能對比(圖源:技術報告)
模型還具備自適應節奏控制能力 , 能夠根據語音輸入的清晰度與表達節奏 , 智能調整輸出時機與語速 。
在長時間演講等場景中 , 系統會主動保持譯文與源語的節奏一致 , 避免“跟不上講話節奏”或“提前結束”等不同步問題 。
三、0樣本聲音復刻 , 譯音既準又像“你”
Seed LiveInterpret 2.0引入“0樣本聲音復刻”能力 , 只需實時采樣對話語音 , 系統便能學習并克隆用戶的音色特征 , 以“原聲”輸出目標語種譯文 。 這一能力在真實會議、演講、跨語種溝通中極具實用價值 , 不僅降低理解門檻 , 也增強語義情緒的傳達 。
在多輪語音評測中 , Seed LiveInterpret 2.0是唯一支持“中英雙向語音到語音同傳+聲音克隆”的系統 , 其SVIP(語音譯文有效信息比例)在zh-en方向達到67.8 , 在en-zh方向達到64.7 , 音質、節奏、語調高度擬人 。

▲圖為語音到語音同傳任務中 , Seed LiveInterpret 2.0與主流系統在SVIP(語音譯文有效信息比例)上的對比 。 (圖源:技術報告)
得益于Seed LiveInterpret 2.0的聲音復刻能力 , 用戶在與不同語言背景的人交流時 , 依然能用自己的音色輸出外語譯文 , 在提升識別度的同時 , 也增強了交流的親和力 。
智東西第一時間進行了試用 , 在“同聲傳譯”的過程中 , 系統對英文語音的翻譯響應較快 , 音色復刻也具備一定相似度 , 能聽出說話者的語氣 。
但整體仍存在一定延時感 , 特別在語速變化或語句較長時更為明顯 。
四、專業評測驗證:翻譯準確率達74.8分
為評估系統性能 , 字節Seed團隊基于中英雙向RealSI標準數據集 , 邀請專業同傳譯員團隊進行人工打分 。
結果顯示 , 在語音到語音翻譯任務中 , 其譯音質量得分達66.3 , 顯著超過同類系統 。 在語音到文本的中英互譯任務中 , Seed LiveInterpret 2.0的平均翻譯質量得分為74.8(滿分100) , 相比第二名系統高出58% 。

▲圖示為語音到文本(S2T)和語音到語音(S2S)同傳任務中 , 人工評測的翻譯質量與響應效率結果 。 其中部分商業翻譯系統以字母代稱 。 (圖源:字節跳動Seed)
同時 , 在延遲方面 , 語音到文本場景中平均輸出首字延遲僅為2.21秒 , 語音到語音場景延遲為2.53秒 , 展現了質量與速度的良好平衡 。
系統在BLEURT、COMET等客觀翻譯指標上同樣表現領先 , 且為唯一支持“聲音復刻”的評測系統 。
在標準化測試中 , Seed LiveInterpret 2.0在中譯英(zh-en)與英譯中(en-zh)任務中均取得了最高的BLEURT和COMET得分 , 同時在延遲指標AL(Average Lagging)、LAAL和FLAL上展現出良好平衡 。
尤其在語音到語音(S2S)任務中 , Seed LiveInterpret 2.0在zh-en方向取得60.7/83.6的得分 , 在en-zh方向取得57.6/83.5的得分 , 并以2.17秒的FLAL達成最低延遲 , 整體表現領先同類系統 。

▲圖示為客觀測評集的測評成績 , 由于業界適合同傳場景的高質量公開測試數據較少 , 字節Seed團隊整合了公開數據與內部數據集進行測試 。 (圖源:字節跳動Seed)
結語:語言不再隔閡 , AI真正走上同傳舞臺
從延遲、譯準率到音色復刻 , Seed LiveInterpret 2.0已讓AI在同傳這條“最難登頂”的語言技術路徑上邁出了關鍵一步 。 技術側依托多模態訓練與強化學習策略 , 產品層面則已具備跨語言實時演講、跨境會議、教育直播等落地能力 。
盡管目前仍僅支持中英互譯 , 但這套端到端同傳框架的可擴展性 , 為后續多語種拓展、情緒模仿和更多交互形式的翻譯任務奠定了基礎 。
當“聽懂你說什么”與“像你說出來”同時成為可能 , 語言AI正在告別輔助工具的角色 , 真正走向人與人溝通的前臺舞臺 。

    推薦閱讀