語音助手「智商滑鐵盧」:當GPT開口說話,準確率從74.8%跌到6.1%

語音助手「智商滑鐵盧」:當GPT開口說話,準確率從74.8%跌到6.1%

文章圖片

語音助手「智商滑鐵盧」:當GPT開口說話,準確率從74.8%跌到6.1%

文章圖片

語音助手「智商滑鐵盧」:當GPT開口說話,準確率從74.8%跌到6.1%

文章圖片

語音助手「智商滑鐵盧」:當GPT開口說話,準確率從74.8%跌到6.1%



想象這樣一個場景:同一個 AI 模型 , 用文字交流時對答如流 , 一旦開口說話就變得磕磕巴巴、答非所問 。 這不是假設中的場景 , 而是當下語音交互系統的真實寫照 。


杜克大學和 Adobe 最近發布的 VERA 研究 , 首次系統性地測量了語音模態對推理能力的影響 。 研究覆蓋 12 個主流語音系統 , 使用了 2931 道專門設計的測試題 。





  • 標題:Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap
  • 論文: arxiv.org/pdf/2509.26542
  • 代碼:github.com/linyueqian/VERA


核心發現令人意外 , 最觸目驚心的對比來自 OpenAI 的 GPT 家族:


  • GPT-5 文本版在數學競賽題上的準確率:74.8%
  • GPT-realtime 語音版的準確率:6.1%


相差 68.7 個百分點 , 幾乎是「學霸」和「學渣」的差距 。


這不是個例 。 研究團隊測試了 12 個主流語音系統——從 OpenAI 的 GPT-realtime 到谷歌的 Gemini-native-audio , 從亞馬遜的 Nova Sonic 到阿里巴巴的 Qwen 音頻模型——無一例外 , 全部在推理任務上「翻車」 。



延遲與準確率的關系圖 。 追求 1.5 秒內響應的系統 , 準確率都在 10% 左右徘徊 。


VERA:一套「會說話」的測試題


為了公平對比 , 研究團隊精心設計了一套前所未有的評測體系 。 他們從五個維度考察語音系統的推理能力:


  • 數學推理


這些題目來自美國數學邀請賽 , 原本是為頂尖高中生設計的 。 比如:「有兩個二次多項式 P 和 Q , P 的最高次項系數是 2 , Q 的是負 2 , 它們都經過點(1654)和(2053) , 求 P(0) 加 Q(0) 的值 。 」 文本模型游刃有余 , 語音模型幾乎全軍覆沒 。


  • 網絡信息綜合


需要整合多個信息源才能回答的問題(取材自 BrowseComp 數據集) 。 「有位非洲作家在車禍中去世 , 他小時候想當警察 , 2018 年起在私立大學任教直到去世 。 他在哪些年份做過緩刑官?」 這類題目考驗的是網絡搜索能力和多跳推理能力——同樣也是語音系統薄弱的環節 。


  • 研究生級科學問題


來自 GPQA Diamond 數據集 , 連博士生都覺得有挑戰性 。 涉及量子力學、有機化學、分子生物學等深度專業知識 。


  • 長對話記憶


測試系統能否記住之前對話的內容(由 MRCR 數據集改編) 。 「你能把之前寫的第二篇關于燈光的新聞給我看看嗎?」看似簡單 , 卻難倒了大部分語音系統 。


  • 事實檢索(基準對照)


最簡單的知識問答(源于 Simple QA 數據集) , 如「2010 年 IEEE Frank Rosenblatt 獎得主是誰?」用來驗證系統的基礎能力 。



五類測試題示例 。 每道題都經過精心改寫 , 確保能自然說出 。


從文字到語音:
一場精心設計的「翻譯」


VERA 的獨特之處在于其嚴格的語音改寫流程 。 研究團隊沒有簡單地讓 TTS 讀出原始題目 , 而是進行了系統性的「語音原生化」改造:


  • 數字全部轉換為詞語:「2024年」變成「twenty twenty-four」
  • 符號轉換為口語表達:「x2」變成「x squared」 , 「≥」變成「greater than or equal to」
  • 添加自然的對話開?。 骸肝以謐鲆壞朗?, 需要你幫忙……」
  • 避免歧義發音:確保每個專業術語都有明確的讀音


這個過程由四個步驟組成:語音適配性篩選 → TTS 感知改寫 → 質量驗證 → 語音生成 。 最終 , 從約 22000 道原始題目中精選出 2931 道高質量測試題 。





核心結果對比表 。 展示各模型在不同任務上的表現差異 。


深度剖析:
語音系統為什么「變笨」?


  • 原因一:不可逆的流式承諾(Irreversible Streaming Commitment)


研究指出了一個根本性的架構沖突:


文本生成像寫草稿:思考 → 打草稿 → 修改 → 輸出終稿
語音生成像現場直播:邊想邊說 → 說出去收不回 → 硬著頭皮繼續


這種「不可逆的流式承諾」導致語音系統傾向于選擇安全但膚淺的回答路徑 。 它們寧可流暢地說出錯誤答案 , 也不愿停下來深入思考 。


  • 原因二:認知資源的分配困境


當系統需要同時處理「想什么」和「怎么說」時 , 認知資源被迫分散 。 研究發現 , 即使給語音模型更多「思考時間」(如 Audio Flamingo 3 的 thinking 模式 , 將響應時間從 2.4 秒延長到 15.1 秒) , 準確率不升反降(從 1.7% 降到 1.5%) 。


這說明問題不在于時間 , 而在于架構本身的局限性 。


  • 原因三:錯誤的連鎖反應



錯誤模式熱力圖 。 不同系統展現出獨特的「失敗指紋」 。


研究團隊分析了 16 種錯誤類型 , 發現不同架構有著截然不同的失敗模式:


  • 流式架構(如 GPT-realtime):傾向于「完成優先」 , 即使答案錯誤也要說完整 , 很少承認「我不知道」(NO_FINAL_ANSWER 偏差 -0.23) 。


  • 端到端架構(如 Moshi):經常跑題(OFF_TARGET 偏離度 +0.52) , 像是完全理解錯了問題 。


  • 級聯架構(如 LiveAnswer):前后矛盾(LOGICAL_CONTRADICTION +0.22) , 模塊間信息傳遞容易出錯 。


行業的集體困境


這項研究最令人震驚的發現是問題的普遍性 。 無論是商業巨頭還是開源項目 , 無論是端到端訓練還是模塊化設計 , 所有語音系統都表現出相似的「智商下降」 。


宏觀數據令人深思:


  • 文本模型平均準確率:約 54%
  • 語音模型平均準確率:約 11.3%
  • 差距:42.7 個百分點


更糟糕的是 , 這個差距在需要深度推理的任務上進一步擴大 。 在數學推理任務上 , 最好的文本模型(GPT-5)達到 74.8% , 而最好的語音系統也只有 6.1% 。



不同模型家族的性能對比 。 雷達圖清晰展示了文本與語音的巨大鴻溝 。


級聯架構也救不了


研究團隊還搭建了一個簡易的 LiveAnswer 系統進行實驗:讓 GPT-5 在后臺負責推理 , 前臺用快速模型(由 Groq 優化的 Llama-3 模型)實時解釋 , 再接上文字轉語音系統生成語音 。 結果數學準確率提升到 59.1% , 但仍比純文本低 15.7% 。 更要命的是 , 在需要精確匹配的長對話記憶任務上完全失效(0.2%) 。


這證明了一個殘酷的事實:問題不是工程優化能解決的 , 而是架構層面的根本矛盾 。


未來的突破口在哪里?


研究團隊提出了幾個可能的方向:


  • 異步架構革新讓「思考」和「說話」真正解耦 , 后端可以慢慢推理 , 前端維持流暢對話 。 這需要全新的系統設計 , 而不是簡單的模塊拼接 。


  • 智能緩沖策略利用語音播放的時間進行并行計算 。 當系統說「讓我想想這個問題」時 , 后臺已經在瘋狂運算 。


  • 可編輯的內部狀態建立獨立于語音輸出的內部推理狀態 , 允許系統在內部「打草稿」 , 只把成熟的想法轉化為語音 。


  • 分塊并行處理將復雜問題分解為多個子任務 , 并行處理后再整合結果 。


影響與展望


VERA 的發布不僅揭示了當前技術的局限性 , 更重要的是提供了一個標準化的評測框架 , 讓整個行業可以量化地追蹤進展 。 這項研究傳遞的信息很明確:真正智能的語音助手不是把文本模型接上 TTS 那么簡單 。


它需要從根本上重新思考如何在實時對話的約束下進行深度推理 。 研究者們樂觀地指出 , 識別問題是解決問題的第一步 。 現在我們知道了差距有多大(42.7 個百分點) , 知道了問題出在哪里(架構而非工程) , 接下來就是尋找突破的時候了 。


寫在最后


下次當 Siri 或小愛同學答非所問時 , 不妨多一份理解 。 這不是它們「笨」 , 而是整個行業都在面對的技術挑戰 。


從「會說話的搜索框」到「能推理的智能助手」 , 我們還有很長的路要走 。


但至少現在 , 我們有了一把標尺(VERA benchmark)來衡量進步 。 每一個百分點的提升 , 都意味著語音交互向真正的智能更近了一步 。


【語音助手「智商滑鐵盧」:當GPT開口說話,準確率從74.8%跌到6.1%】或許有一天 , 當語音助手能夠流暢地解決數學競賽題時 , 鋼鐵俠的賈維斯就不再是幻想了 。

    推薦閱讀