
文章圖片
快科技8月22日消息 , 今日 , 阿里通義發布新一代端到端的語音識別大模型Fun-ASR , 該模型增強了上下文感知和高精度語音轉寫能力 , 在家裝、保險等多個行業場景的語音識別準確率均提升了15%以上 。
據了解 , Fun-ASR是大語言模型驅動的語音識別算法 , 其基于自研語音算法和監督微調的Qwen3訓練 , 并采用前沿的模型架構以及先進的文本模態對齊技術 , 可有效保護和增強大模型的語言處理能力;
此外 , Fun-ASR集成了RAG方案 , 可提供自動化音頻信息檢索功能 , 最高可導入1000多個自定義熱詞 。
基于該功能 , 系統能夠根據輸入音頻精確獲取相關領域熱詞、文檔及前文記錄 , 大幅提升特定領域內的關鍵詞識別效果 。
為解決語音識別不準確、噪聲干擾、語種混淆以及生成幻覺等問題 , 通義團隊還在ASR模型訓練中引入了RL(強化學習)技術 , 此策略有效減少識別過程中的幻覺 , 提高整體系統的準確性與可靠性 。
值得一提的是 , 在四川話、粵語、閩南語等多地方言上 , Fun-ASR取得了領先同類產品的表現 。
此外 , Fun-ASR對遠場拾音和近場降噪的等多樣環境也表現出了良好的適應性 , 無論是會議室、工位 , 還是超市、戶外 , 均可有效保證識別準確率 。
在訓練數據上 , Fun-ASR基于上億小時音頻數據的訓練 , 全面涵蓋了互聯網、科技、家裝、畜牧、汽車等十多個領域的專業術語 , 在多個垂直領域的識別準確率顯著提升 。
實測數據顯示 , Fun-ASR在保險行業的準確率較以往提升18% , 在家裝、畜牧等行業也實現了15%-20%的提升 。
【阿里通義新一代語音模型Fun-ASR再進化 垂直領域識別準確率提超15%】
推薦閱讀
- 阿里業務變更為四大集團:大文娛權重下滑 蔣凡“太子”地位穩固
- 魅族新一代旗艦機官宣:9月中上旬,正式發布
- 反“開盒”技術聯盟成立,百度、抖音、阿里、騰訊等公司成首批成員
- 通義APP上線官方知識庫,首批覆蓋教育、法律、金融等五大領域
- 新一代芯片?英偉達不想放棄中國市場,還有希望嗎?
- 象帝先新一代伏羲架構GPU將采用5nm工藝,算力可達160TFLOPS?
- 阿里圖像生成模型登頂HuggingFace,一句話把馬斯克“變老”
- 剛剛,阿里“掃地僧”重出江湖!加入杭州AI創企,與另一位大佬匯合
- 英睿達T710 2TB SSD評測:新一代性能旗艦 14.5G/s僅有57度
- 紅米新機官宣:新一代小金剛,下周見!
