上海交大聯合宇生月伴,研發高性能高泛化語音鑒偽大模型

上海交大聯合宇生月伴,研發高性能高泛化語音鑒偽大模型

文章圖片

上海交大聯合宇生月伴,研發高性能高泛化語音鑒偽大模型

文章圖片

上海交大聯合宇生月伴,研發高性能高泛化語音鑒偽大模型

文章圖片

上海交大聯合宇生月伴,研發高性能高泛化語音鑒偽大模型

【上海交大聯合宇生月伴,研發高性能高泛化語音鑒偽大模型】

在生成式 AI 技術日新月異的背景下 , 合成語音的逼真度已達到真假難辨的水平 , 隨之而來的語音欺詐與信息偽造風險也愈演愈烈 。 作為應對手段 , 語音鑒偽技術已成為信息安全領域的研究重心 。

然而 , 當前的語音鑒偽模型正面臨嚴峻的「泛化性挑戰」:許多在特定實驗室數據集上表現優秀的模型 , 在面對現實世界中從未見過的生成算法時 , 檢測性能往往會出現劇烈下滑 。 這種「泛化瓶頸」嚴重限制了鑒偽技術在復雜多變的真實場景中的應用價值 。

針對這一難題 , 上海交通大學聽覺認知與計算聲學實驗室和宇生月伴公司(VUI Labs)聯合發表了最新研究成果 , 提出了一種以數據為中心的研究范式 。 該研究深入探究了訓練數據分布與模型泛化能力之間的底層邏輯 , 通過系統性的實證研究與策略優化 , 構建了兼具高性能與高泛化性的語音鑒偽大模型 。



論文標題:A Data-Centric Approach to Generalizable Speech Deepfake Detection 論文鏈接:https://arxiv.org/pdf/2512.18210
核心視角:
從單一構建到多源聚合

不同于以往關注架構創新的路徑 , 論文從數據中心視角切入 , 將數據版圖重構為兩個核心視角:

構建單一數據集: 基于不同信源(source)和生成器(generator)生成偽造樣本 , 構建數據集 。
聚合多源數據集: 匯聚具有不同信源、生成算法及其他聲學條件的異構數據池 , 構建多樣化訓練數據 。


基于上述視角 , 論文旨在通過系統性的實證分析探索兩個核心問題:

在單一數據集構建中 , 如何在數據規模和多樣性(信源 / 生成器)之間進行資源的科學分配?
在聚合多源數據集時 , 如何設計高效的混合與采樣策略以實現最優泛化性能?
規模定律:
多樣性遠勝數據總量

為了揭示資源分配的最優原則 , 論文針對訓練數據的組成規律開展了大規模實證分析 。 通過量化信源多樣性、生成器多樣性與樣本容量之間的復雜關系 , 揭示了語音鑒偽領域內在的「規模定律」 。

核心發現:

多樣性是泛化的首要動力: 在資源有限的情況下 , 提升信源與生成器的多樣性所帶來的性能增益 , 遠比單純增加數據總量更具效率 。
信源與生成器屬性互補: 信源多樣性有助于模型構建穩健的真實語音分布 , 而生成器多樣性則顯著強化了模型對各類偽造特征的識別 。
泛化表現具備可預測性: 泛化誤差隨數據多樣性的增加呈現出穩定的冪律縮放特性 , 使泛化能力的提升從隨機探索走向科學建模 。


采樣策略:
科學混合異構數據池

既然多樣性的價值遠勝于純粹的數據堆疊 , 那么如何科學地混合來自不同源頭的異構數據 , 就成為了解決泛化難題的第二個關鍵問題 。 基于規模定律的分析 , 論文提出了多樣性優化采樣策略(Diversity-Optimized Sampling Strategy , DOSS) 。 該策略的核心在于將復雜的異構數據按照信源或生成器劃分為細粒度的域 , 并相對公平地對待每一種已知的生成模式:

細粒度域定義: 將真實語音按「信源」劃分 , 將偽造語音按「信源 + 生成器」的組合進行索引 , 從而在更微觀的層面實施分布控制 。
多樣性篩?。 ―OSS-Select): 一種基于數據剪枝策略 , 旨在構建更平衡且高效的訓練子集 , 剔除邊際收益遞減的冗余樣本以提升訓練效率 。
分布加權(DOSS-Weight): 一種數據重加權策略 , 在保留全量數據的同時 , 調整各數據域在訓練時的采樣概率 , 讓模型更均衡地學習不同規模域的特征 , 避免被海量但單一的數據分布所主導 。
實驗結果驗證了該策略在處理大規模異構數據時的優勢:

極高的數據效率: 采用 DOSS-Select 策略 , 僅需使用約 3% 的總數據量 , 其泛化性能即可超越樸素聚合全部數據的基線水平 。
顯著的性能提升: 采用 DOSS-Weight 策略 , 實現了相對樸素聚合基線約 30% 的大幅度誤差削減 。


實戰評估:
學術基準和商業接口實測

為了驗證上述策略的穩健性與可擴展性 , 論文構建了一個包含 1.2 萬小時音頻、涵蓋 300+ 個偽造領域的大規模異構數據池 。 通過應用 DOSS 策略進行訓練 , 最終得到了高性能高泛化的大模型 , 并在多個學術基準和商業接口上進行了實測 , 均取得了突破性表現:

學術基準:刷新跨域性能記錄

在多個公開測試集的評估中 , 模型平均等錯誤率(EER)降至 1.65% , 在多個主流基準測試中均刷新了記錄 , 確立了新的技術基準和 SOTA 。 此外 , 數據與模型效率的表現尤為出色:相較于之前最好的來自日本 NII 的系統——在 7.4 萬小時數據上訓練的 2B 規模模型(平均 EER 3.94%) , 提出的新方案僅憑約 1/6 的訓練數據與更精簡的參數規模 , 便實現了檢測誤差的倍數級削減 。 即便是在更輕量的 300M 版本下 , 其性能表現依然穩健 , 證明了科學的數據策略比單純的規模堆疊更能有效釋放模型的泛化潛力 。



商業接口:直面現實安全威脅

針對從 Google、Microsoft 等主流云服務到 ElevenLabs、MiniMax 等前沿高擬真引擎的 9 類最新商業接口進行評估 , 模型平均檢測準確率達到了 96.01% 。 即便在面對目前極具挑戰性的高保真合成引擎 Qwen3 時 , 模型仍能保持 87.32% 的高準度識別 。 這進一步印證了從多樣化訓練數據中學習到的表征 , 能夠有效遷移并泛化至現實中不斷進化的商業生成方式 。



總結

不同于以往在模型架構與算法優化上的迭代 , 深挖訓練數據組成的底層邏輯正在成為重塑語音安全防線的關鍵 。 本論文通過量化多樣性的規模效應并引入優化采樣機制 , 成功實現了對異構數據資源的高效調度與深度挖掘 。 這種向「數據中心」范式的深刻轉變 , 為構建高性能、高泛化的語音安全大模型提供了全新的探索思路 。

團隊介紹

研究團隊來自于上海交通大學計算機學院聽覺認知與計算聲學實驗室(SJTU Auditory Cognition and Computational Acoustics Lab , AudioCC Lab)和宇生月伴公司(VUI Labs) , 該團隊由語音對話和聽覺處理領域知名學者 , 教育部長江學者錢彥旻教授領導 , 專注于完整的聽覺人工智能與計算聲學領域的前沿研究 。

實驗室集結了一支由青年教師、博士生、碩士生、本科生及專職科研人員等組成的近 40 人科研團隊 , 在語音、音頻、音樂及自然聲信號處理等領域積累了豐富的技術經驗 。 實驗室依托國家重點項目及企業合作支持 , 擁有數百塊先進 GPU 計算資源 , 致力于解決產業級技術難題 。

近年來 , 團隊在國際頂級期刊和會議上發表了數百項學術成果 , 并在多項國際評測中斬獲冠軍 。 團隊成員全面發展 , 畢業生均進入國內外頂級企業和研究機構 , 持續推動人工智能技術的創新與應用 。

    推薦閱讀