通義百聆，再掀 AI 硬件淘金潮_耳機|語音識別|軟件|人工智能

文章圖片

語音，或許是最快跑通 PMF 的模型。
沉寂已久的語音大模型的市場，在 2025 年又重新熱了起來。
硬件端，如果以單品銷量突破百萬為標志，那么 Plaud 為代表的 AI 轉錄筆、AI 耳機，這些與 AI 語音強綁定的硬件，或許是大模型落地中為數不多成功的品類。
同時，伴隨阿里、字節等大廠，華米 OV 等傳統硬件公司，乃至 ikko、時空壺、黃鸝智聲等創新硬件公司下場，語音 AI 硬件已經成為炙手可熱的品類。
硬件端的熱度，傳導到算法層：今年以來，包括 OpenAI GPT-4o 語音系列、Anthropic Claude 語音模式、Mistral Voxtral 系列、ElevenLabs Eleven v3 等語音模型先后亮相。
到了年末，發布變得更加密集，微軟 12 月 23 日開源 VibeVoice-Realtime-0.5B、谷歌 12 月 11 日推出 Gemini TTS 2.5 ， xAI 12 月 17 日發布 Grok Voice Agent API……
緊隨其后， 12 ? 23 ?的飛天發布時刻，阿里官宣升級與發布通義百聆系列：Fun-ASR（語音識別）、開源版Fun-ASR-Nano（0.8B）； Fun-CosyVoice3（語音合成）、開源版 Fun-CosyVoice3（0.5B）；同日， Fun-Audio-Chat（端到端語音交互）發布，并宣布開源 Fun-Audio-Chat-8B ，接力棒開始逐漸傳遞到中國團隊的手中。
至此，一個越來越清晰的信號已經出現：相比文本類模型免費產品內卷，視頻類模型卡在成本高但付費率低的困境；2025 年率先實現 PMF 的大模型類別，或許出現在語音賽道。
那么語音大模型是如何又火了起來？背后的原因幾何？為什么又說它會是最早實現 PMF 的大模型類別，而市場又需要怎樣的語音大模型？
我們不妨以最新升級發布 Fun-ASR 模型與 Fun-CosyVoice3 模型為代表，來拆解這場語音賽道的逆襲之戰。

01
語音大模型，為什么又火起來了？

如果回望 2024 年百模大戰，大概會發現一個細節：當時幾乎所有 AI 發布會，都會把長文本或者炫酷的視頻生成作為主菜，而語音模型，往往只作為企業具備全模態 AI 能力的一個不起眼的佐證，被一筆帶過。
這種邊緣化并非偶然。早在前一波 AI 浪潮中， ASR（自動語音識別）和 TTS（文本轉語音）就已展現出「早熟」特質：會議軟件的實時轉寫、社交 APP 的語音轉文字，這些功能早已打得滿場開花，讓市場產生了語音 AI 市場早已飽和的錯覺。
但這種飽和的本質，其實是一種技術完成度 90% 帶來的錯覺。 ASR（自動語音識別）的準確率看似很高，日常對話能到 90% 以上，但一碰到專業場景就掉鏈子：
金融會議上，「LPR 利率」能被識別成「LPR 利潤」，差一個字就讓數據失去意義；醫療問診中，「腎小球濾過率」被轉寫成「腎小，求過濾」，專業術語直接變外行話。
而 TTS 的尷尬更直觀，早期合成音要么像機器人讀課文，平鋪直敘毫無感情，要么連「不太行（xíng）」和「太行（háng）王屋」這樣的多音字都分不清，更別提還原真人說話時的呼吸間隙、情緒波動，甚至偶爾的卡頓細節。
也正因此，語音技術長期被困在網頁朗讀、導航播報等低價值場景里，無法觸及數字人、有聲書、商業配音等高價值領域。
直到大模型技術的突破，終于補上了最關鍵的 10% 。
首先是音頻建模難題的破解。過去 TTS 的核心痛點，是自然度：怎么讓 AI 知道一句話里該重讀哪個詞、哪里該停頓。比如「我今天吃了三碗飯」，正常人會重讀「三碗」強調數量，但早期 TTS 可能把「今天」讀得最重，來雖然沒錯，但對會聽眾，就會造成昨天沒吃飯的潛層含義誤讀。
而大模型通過學習海量真人語音的韻律特征，不僅解決了重音、多音這樣的老問題，甚至能還原出笑場、陰陽怪氣這類細微情緒， Fun-CosyVoice3 甚至已經能做到開口即真聲，說什么都像本? ，會笑、會喘、有情緒，具有百種好聽??任你選。
其次是 ASR 從「逐字轉寫」到「語義轉寫」識別準確率的最后一公里突破。傳統模型只能做語音轉碼工，遇到口語化表達、網絡熱梗、場景化表達就抓瞎。比如有人玩梗說「后人管乾隆叫章總」，過去的模型可能把「乾隆」識別為「潛龍」或者「錢龍」，甚至斷句成「管錢、龍」，相應的后半句「章總」的調侃，也會被誤識別為「張總」。而 Fun-ASR 能直接識別為專業縮寫，甚至能根據上下文判斷「章總」是特定指代，而非「張總經理」的簡稱。
建立在此基礎之上，硬件商業模式的跑通，成了語音大模型爆發的催化劑。市場逐漸意識到， AI 時代的交互模式中，語音或許會智能手機時代的觸摸+視覺更加便捷。
人和人之間最直接的交互媒介是語音，但不同語種人群如何交流需要借助 AI 語音翻譯；冗長的會議過程，如何提升效率、總結重點，同樣離不開語音技術。
此外，過去需要打開某個功能，即使熟練操作的年輕人，也需要在 APP 不同一二級入口、小程序之間跳轉，在此之前，還需要先躲過搖一搖的漫長開屏暴擊。畢竟，一不留神，就會從學習軟件跳到外賣 APP——知識大門里的精神食糧還顆粒未見，外賣員就已經帶著深夜奶茶炸串按響了家門口的門鈴。而 AI 時代，只需要一句命令，「幫我打開 XX 軟件的《哲學二十講》有聲書， 1.5 倍速播放」就能一切搞定。對年輕人而言，是效率提升，是不熟悉操作的老年人來說，則是擁抱智能時代最簡單的方式。
語音，也在這一時期有了成為 AI 時代硬件超級入口的可能。
與此同時，相比需要在云端才能高效運行的視覺、文本大模型，語音模型被本地化的難度更低、模型效果損失更低，也更容易被直接搭載到手機、耳機、眼鏡等現有硬件形態。
這一點，華強北的商家最有發言權。有媒體調查發現，在華強北，一個攝像功能的眼鏡需要至少三五百，而一個搭載語音功能的耳機，借助快速成型的模組解決方案、軟件解決方案、組裝、分銷等細分產業鏈環節，最低幾十元就能拿貨，一舉在今年年初就賣成了爆品，甚至遠銷海外，以 9.9 美元的價格血洗美國市場。
而當所有人都涌到語音硬件賽道淘金時，提供核心算法的賣鏟人，自然迎來了最好的時代。

02
市場需要怎樣的語音大模型？

語音模型的能力，會直接決定整個市場的天花板。
但過去一個行業常見的技術難題在于：客戶想要一個能識別所有場景的 ASR 模型，最后發現，連他們公司的簡稱都識別不出來。這本質其實是場景的碎片化，與模型通用性的沖突。
場景層面，客戶需要模型能夠應對復雜環境、能應對強背景音干擾、實時流式輸出。能力上，還要支持中英文混合輸入、多語言與方言、能夠理解場景詞、支持聲音定制，最好還能被安裝進本地硬件。
但很顯然，一個模型不可能解決以上所有難題。
也是因此，此次發布的通義百聆，除了滿血 Fun-ASR、Fun-CosyVoice、Fun-Audio-Chat 模型，還同步開源了Fun-ASR-Nano（0.8B）、Fun-CosyVoice3（0.5B）， Fun-Audio-Chat-8B ，針對不同場景做了精準打擊。
接下來，我們可以通過幾個典型案例，看看不同場景下，好的語音模型該具備哪些能力。
語音技術當前最常用的剛需場景當屬會議。在此場景下，會議錄音轉寫是剛需，但也是痛點：會議室里的空調聲、翻筆記本的雜音、遠處同事的討論聲，突然的咳嗽聲，都會讓 ASR 集體失聰。
Fun-ASR 針對這個場景做了遠場降噪優化。通過模擬會議室、車載、工業現場等高噪聲環境，用強化學習（RL）訓練模型過濾干擾音。實測數據顯示，以上復雜的場景下， Fun-ASR 的識別準確率能達到 93% 。

更實用的是流式識別能力。傳統 ASR 需要等整段語音結束才能輸出文字，而 Fun-ASR 支持邊說邊出字，首字延遲低至毫秒級別。也就是說，你剛說完「接下來我們討論 Q4 計劃」，文字就已經出現在屏幕上，這對實時字幕、會議直播等場景至關重要。
會議之外，多語言混說的翻譯場景，也是很多跨境商家、留學黨、出國旅游黨的一大痛點。做跨境電商談判的商家可能遇到過這種尷尬：和日本客戶溝通時，既要和同事說中文「這個產品的毛利率是 20%」，又要對客戶說日語「発送時間は 3 日です」（發貨時間 3 天），還夾雜英文「MOQ 是 100 件」，傳統 ASR 要么只能識別單一語言，要么把「MOQ」拆成「M-O-Q」。
Fun-ASR 支持 31 種語言的自由混說，不需要預先設置語種，模型就能自動判斷并識別。比如輸入「このカフェの wi-fi が不安定で、google meet で切斷された」（這家咖啡館的 WiFi 不穩定，在 Google Meet 上斷連了），其中包含得日語、英文， Fun-ASR 都能準確轉寫。
翻譯場景除了需要準確，如果能做到翻譯音色與原始音色保持一致，那么在商務洽談、文化內容出海等場景中將極大提升表達的效率。為此， Fun-CosyVoice3 在能力建設上，支持了跨語種音色克隆。基于用戶的普通話錄音，就能生成粵語、日語、英語的語音，覆蓋 9 大語種 + 18 種中文方言及口音。

比如用一段中文「今天天氣很好」的錄音，克隆后生成日語「今日は天気が良いです」，聽感上幾乎是同一個人的發音，相當于一個人頂一個翻譯+配音團隊。并且?包延遲下降 50% ，交互更絲滑，顯著提升語?助?、智能客服等場景下的響應感知。
除了以上通用場景，對醫療、金融、工業等領域的語音識別來說，最大的難點是專業術語。比如醫療會議中的「腎小球濾過率」「三磷酸腺苷」，金融討論中的「LPR 加點」「量化寬松」，如果 ASR 不認識這些詞，轉寫結果就會變成天書。
Fun-ASR 引入了 RAG（檢索增強生成）機制，解決了這個痛點。簡單來說，就是給模型建了一個專業詞典庫：用戶可以導入行業術語（比如醫院的科室名稱、金融的產品名稱），模型在識別時會自動檢索詞典，確保專業詞不被認錯。更關鍵的是，這個詞典庫的容量從傳統的 1000 條擴展到 10000 條，且不影響通用場景的識別準確率。
尤其值得一提的場景是數字人、AI 客服、AI 硬件交互這樣的高價值場景。過去要想這些場景的實時智能互動，通常需要 ASR + LLM + TTS 多模塊拼接。這不僅會造成模型架構上的冗余臃腫、部署鏈路繁瑣，還會因多模塊間的數據傳輸、指令調度產生大量耗時，讓整體的首包延遲大幅增加，很難滿足實時交互的體驗要求。比如數字人直播出現嘴型與應答脫節、AI 客服讓用戶等待過久、智能硬件語音交互有明顯卡頓感。
Fun-Audio-Chat 則能實現直接用戶語音輸入-模型語音輸出的端到端能力，并且保持整體的高智商、高情商、及時反映。此外，用戶還能用它實現情緒、說話風格、語速、高低音、音量的定制。從而在數字人場景中，讓虛擬主播、虛擬講師、政企數字分身的語音表達更貼合人設；在 AI 客服場景里，定制符合企業品牌調性的溝通語態，適配金融、教育、政務等不同行業的服務規范。
而對數據敏感的場景（比如機房巡檢、軍工設備）來說，除了要準確率、實時率，語音模型還不能聯網，必須本地部署，這就要求模型體積小、性能強。
通義此次開源的 Fun-ASR-Nano（0.8B）和 Fun-CosyVoice3（0.5B）、Fun-Audio-Chat-8B ，就是為本地部署設計的。 Fun-Audio-Chat-8B ，其參數量意味著，用戶借助一張 24GB 的 4090 就能以 FP16 的精度在本地運行模型，實現高質量的端到端語音交互；Fun-ASR-Nano 以及 Fun-CosyVoice3-0.5B 更夸張， 0.8B 以及 0.5B 的參數，也就意味著其在手機端這樣的移動終端上就能實現實時語音識別與語音合成（FP16 精度格式下，靜態存儲成本約為 1G ，動態運行開銷大概為 1.5G ，和 MOBA 類手游團戰場景的開銷不相上下）。

03
尾聲

AI 耳機、轉錄筆的爆發，讓市場看到了語音賽道的巨大潛力。但要做好語音大模型這門賣鏟人的生意，門檻遠比淘金的硬件廠商更高——它不僅要求技術過關，還需要企業同時具備開源運營與商業化能力。
商業化不必多說，這是核心的收入來源。
開源的意義則在于滿足語音場景的碎片化需求。從 Transformer 到通義千問 Qwen、通義萬相 Wan ，開源一直是 AI 技術突破的關鍵。對語音賽道來說，不同行業、不同場景的需求千差萬別，單靠廠商的標準化 API ，遠遠無法滿足所有個性化需求。而通過共享基線模型，開發者可以低成本地進行差異化探索，比如優化特定方言與場景的識別、提升小語種的合成質量。
阿里通義團隊的實踐印證了這一點：從 2023 年至今，其已開源的 300 多款模型，覆蓋文本、視覺、語音等全模態，參數從 0.5B 到 480B 全尺寸。這種開源策略，不僅讓創業公司、個人開發者能低成本利用高精度語音模型搭建應用，也讓阿里通過生態效應掌握了賽道主動權。
更重要的是，開源降低了語音技術的普及門檻。過去，只有大廠才有能力研發高精度語音模型，而現在，創業公司甚至個人開發者，都能通過 Fun-ASR-Nano、Fun-CosyVoice3-0.5B 以及 Fun-Audio-Chat-8B ，快速搭建自己的語音應用。
而當 AI 耳機、AI 轉錄筆、智能巡檢設備等硬件，都能基于這個底座快速在不同場景落地時，過去一年的 AI 耳機、AI 會議轉錄爆發，或許只是語音模型跑通 PMF 的起點。

【通義百聆，再掀 AI 硬件淘金潮】*頭圖來源：AI 生成

通義百聆，再掀 AI 硬件淘金潮

推薦閱讀

王者榮耀馬可波羅動作怎么獲得?王者榮耀五周年祈愿馬可波羅動作獲得攻略

口味重的家常菜有哪些

我的世界盾牌怎么做方法一點不復雜

布谷鳥的特點

小池的作者是誰是哪代詩人小池原文及翻譯

夢見去廟里拜菩薩夢見去廟里拜菩薩什么意思

少女前線春節裝扮怎么樣 cz75春節換裝金蓮花開獲取方式

做眼袋吸脂有什么危害

2022國慶來重慶旅游要不要提供核酸證明？

美圖秀秀如何給圖片加邊框

一歲孩子的輔食食譜及做法

細胞工程，為什么基因工程中當受體細胞是植物細胞時一般用體

縮水的牛仔褲怎么拉回去

通信地址是什么意思

2017中國縣城房價走勢,小縣城房價6千左右

瘋狂聯盟戰爭之王怎么解鎖,戰錘3》恐虐戰役機制介紹