語音助手「智商滑鐵盧」：當GPT開口說話，準確率從74.8%跌到6.1%

2025-11-22 人工智能 ai Google

文章圖片

文章圖片

文章圖片

想象這樣一個場景：同一個 AI 模型，用文字交流時對答如流，一旦開口說話就變得磕磕巴巴、答非所問。這不是假設中的場景，而是當下語音交互系統的真實寫照。

杜克大學和 Adobe 最近發布的 VERA 研究，首次系統性地測量了語音模態對推理能力的影響。研究覆蓋 12 個主流語音系統，使用了 2931 道專門設計的測試題。

標題：Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap
論文： arxiv.org/pdf/2509.26542
代碼：github.com/linyueqian/VERA

核心發現令人意外，最觸目驚心的對比來自 OpenAI 的 GPT 家族：

GPT-5 文本版在數學競賽題上的準確率：74.8%
GPT-realtime 語音版的準確率：6.1%

相差 68.7 個百分點，幾乎是「學霸」和「學渣」的差距。

這不是個例。研究團隊測試了 12 個主流語音系統——從 OpenAI 的 GPT-realtime 到谷歌的 Gemini-native-audio ，從亞馬遜的 Nova Sonic 到阿里巴巴的 Qwen 音頻模型——無一例外，全部在推理任務上「翻車」。

延遲與準確率的關系圖。追求 1.5 秒內響應的系統，準確率都在 10% 左右徘徊。

VERA：一套「會說話」的測試題

為了公平對比，研究團隊精心設計了一套前所未有的評測體系。他們從五個維度考察語音系統的推理能力：

數學推理

這些題目來自美國數學邀請賽，原本是為頂尖高中生設計的。比如：「有兩個二次多項式 P 和 Q ， P 的最高次項系數是 2 ， Q 的是負 2 ，它們都經過點（1654）和（2053），求 P(0) 加 Q(0) 的值。」文本模型游刃有余，語音模型幾乎全軍覆沒。

網絡信息綜合

需要整合多個信息源才能回答的問題（取材自 BrowseComp 數據集）。「有位非洲作家在車禍中去世，他小時候想當警察， 2018 年起在私立大學任教直到去世。他在哪些年份做過緩刑官？」這類題目考驗的是網絡搜索能力和多跳推理能力——同樣也是語音系統薄弱的環節。

研究生級科學問題

來自 GPQA Diamond 數據集，連博士生都覺得有挑戰性。涉及量子力學、有機化學、分子生物學等深度專業知識。

長對話記憶

測試系統能否記住之前對話的內容（由 MRCR 數據集改編）。「你能把之前寫的第二篇關于燈光的新聞給我看看嗎？」看似簡單，卻難倒了大部分語音系統。

事實檢索（基準對照）

最簡單的知識問答（源于 Simple QA 數據集），如「2010 年 IEEE Frank Rosenblatt 獎得主是誰？」用來驗證系統的基礎能力。

五類測試題示例。每道題都經過精心改寫，確保能自然說出。

從文字到語音：
一場精心設計的「翻譯」

VERA 的獨特之處在于其嚴格的語音改寫流程。研究團隊沒有簡單地讓 TTS 讀出原始題目，而是進行了系統性的「語音原生化」改造：

數字全部轉換為詞語：「2024年」變成「twenty twenty-four」
符號轉換為口語表達：「x2」變成「x squared」，「≥」變成「greater than or equal to」
添加自然的對話開?。骸肝以謐鲆壞朗?，需要你幫忙……」
避免歧義發音：確保每個專業術語都有明確的讀音

這個過程由四個步驟組成：語音適配性篩選 → TTS 感知改寫 → 質量驗證 → 語音生成。最終，從約 22000 道原始題目中精選出 2931 道高質量測試題。

核心結果對比表。展示各模型在不同任務上的表現差異。

深度剖析：
語音系統為什么「變笨」？

原因一：不可逆的流式承諾（Irreversible Streaming Commitment）

研究指出了一個根本性的架構沖突：

文本生成像寫草稿：思考 → 打草稿 → 修改 → 輸出終稿
語音生成像現場直播：邊想邊說 → 說出去收不回 → 硬著頭皮繼續

這種「不可逆的流式承諾」導致語音系統傾向于選擇安全但膚淺的回答路徑。它們寧可流暢地說出錯誤答案，也不愿停下來深入思考。

原因二：認知資源的分配困境

當系統需要同時處理「想什么」和「怎么說」時，認知資源被迫分散。研究發現，即使給語音模型更多「思考時間」（如 Audio Flamingo 3 的 thinking 模式，將響應時間從 2.4 秒延長到 15.1 秒），準確率不升反降（從 1.7% 降到 1.5%）。

這說明問題不在于時間，而在于架構本身的局限性。

原因三：錯誤的連鎖反應

錯誤模式熱力圖。不同系統展現出獨特的「失敗指紋」。

研究團隊分析了 16 種錯誤類型，發現不同架構有著截然不同的失敗模式：

流式架構（如 GPT-realtime）：傾向于「完成優先」，即使答案錯誤也要說完整，很少承認「我不知道」（NO_FINAL_ANSWER 偏差 -0.23）。

端到端架構（如 Moshi）：經常跑題（OFF_TARGET 偏離度 +0.52），像是完全理解錯了問題。

級聯架構（如 LiveAnswer）：前后矛盾（LOGICAL_CONTRADICTION +0.22），模塊間信息傳遞容易出錯。

行業的集體困境

這項研究最令人震驚的發現是問題的普遍性。無論是商業巨頭還是開源項目，無論是端到端訓練還是模塊化設計，所有語音系統都表現出相似的「智商下降」。

宏觀數據令人深思：

文本模型平均準確率：約 54%
語音模型平均準確率：約 11.3%
差距：42.7 個百分點

更糟糕的是，這個差距在需要深度推理的任務上進一步擴大。在數學推理任務上，最好的文本模型（GPT-5）達到 74.8% ，而最好的語音系統也只有 6.1% 。

不同模型家族的性能對比。雷達圖清晰展示了文本與語音的巨大鴻溝。

級聯架構也救不了

研究團隊還搭建了一個簡易的 LiveAnswer 系統進行實驗：讓 GPT-5 在后臺負責推理，前臺用快速模型（由 Groq 優化的 Llama-3 模型）實時解釋，再接上文字轉語音系統生成語音。結果數學準確率提升到 59.1% ，但仍比純文本低 15.7% 。更要命的是，在需要精確匹配的長對話記憶任務上完全失效（0.2%）。

這證明了一個殘酷的事實：問題不是工程優化能解決的，而是架構層面的根本矛盾。

未來的突破口在哪里？

研究團隊提出了幾個可能的方向：

異步架構革新讓「思考」和「說話」真正解耦，后端可以慢慢推理，前端維持流暢對話。這需要全新的系統設計，而不是簡單的模塊拼接。

智能緩沖策略利用語音播放的時間進行并行計算。當系統說「讓我想想這個問題」時，后臺已經在瘋狂運算。

可編輯的內部狀態建立獨立于語音輸出的內部推理狀態，允許系統在內部「打草稿」，只把成熟的想法轉化為語音。

分塊并行處理將復雜問題分解為多個子任務，并行處理后再整合結果。

影響與展望

VERA 的發布不僅揭示了當前技術的局限性，更重要的是提供了一個標準化的評測框架，讓整個行業可以量化地追蹤進展。這項研究傳遞的信息很明確：真正智能的語音助手不是把文本模型接上 TTS 那么簡單。

它需要從根本上重新思考如何在實時對話的約束下進行深度推理。研究者們樂觀地指出，識別問題是解決問題的第一步。現在我們知道了差距有多大（42.7 個百分點），知道了問題出在哪里（架構而非工程），接下來就是尋找突破的時候了。

寫在最后

下次當 Siri 或小愛同學答非所問時，不妨多一份理解。這不是它們「笨」，而是整個行業都在面對的技術挑戰。

從「會說話的搜索框」到「能推理的智能助手」，我們還有很長的路要走。

但至少現在，我們有了一把標尺（VERA benchmark）來衡量進步。每一個百分點的提升，都意味著語音交互向真正的智能更近了一步。

【語音助手「智商滑鐵盧」：當GPT開口說話，準確率從74.8%跌到6.1%】或許有一天，當語音助手能夠流暢地解決數學競賽題時，鋼鐵俠的賈維斯就不再是幻想了。

推薦閱讀

上一篇：UIUC、Amazon團隊最新研究指出SFT災難性遺忘問題或被誤解

下一篇：蘋果AI選Mamba：Agent任務比Transformer更好