小紅書FireRedChat:首個私有化部署的全雙工大模型語音交互系統

小紅書FireRedChat:首個私有化部署的全雙工大模型語音交互系統

文章圖片

小紅書FireRedChat:首個私有化部署的全雙工大模型語音交互系統

文章圖片

小紅書FireRedChat:首個私有化部署的全雙工大模型語音交互系統

文章圖片

小紅書FireRedChat:首個私有化部署的全雙工大模型語音交互系統


小紅書智創音頻團隊推出業內首個支持私有化部署的全雙工大模型語音交互系統 FireRedChat , 自研流式 pVAD 與 EoT 讓語音交互更加自然 , 首發級聯與半級聯兩套實現 , 端到端時延逼近工業級應用 。 徹底開源、可私域落地 , 打造真正 “知冷暖、能共情、懂表達” 的語音 AI 。

小紅書智創音頻團隊發布 FireRedChat—— 業內首個支持私有化部署的全雙工大模型語音交互系統 , 直擊延遲高、噪聲敏感、可控性差、依賴外部 API 等痛點 。

FireRedChat 基于 “交互控制器+交互模塊+對話管理器” 的完整架構 , 將任意半雙工鏈路一鍵升級為全雙工;集成自研流式個性化打斷 pVAD、語義判停 EoT、FireRedTTS-1s、FireRedASR、FireRedTTS2 等核心模型 , 提供級聯與半級聯兩種端到端服務部署方案 , 覆蓋從 “穩定易部署” 到 “更有溫度” 的不同需求 , 顯著提升實時性、魯棒性與可控性 。

實驗結果顯示 , 系統在多項關鍵指標領先其他開源框架 , 為 “更智能、更自然” 的全雙工語音交互提供了一套真正可用、可落地的開源方案 。



技術報告:https://arxiv.org/pdf/2509.06502 在線體驗:https://fireredteam.github.io/demos/firered_chat 開源代碼:https://github.com/FireRedTeam/FireRedChat
通過 FireRedChat 構建的 AI 聊天助手不僅具備「快速打斷 , 智能判停 , 實時響應」的自然對話能力 , 還能依托內置的情緒感知與情感合成 , 讓 AI 不再是一個冷冰冰的機器人 , 而是一個「知冷暖、能共情、懂表達」的好朋友 。

她能細膩感知你的情緒變化:在你失落時 , 輕聲安慰、真誠鼓勵;在你遇到驚喜時 , 和你一樣心潮澎湃、享受 surprise;在你開心時 , 陪你分享喜悅、一起歡笑 。

FireRedChat 讓 AI 聊天助手不只是回應文字 , 更能用富有溫度的聲音、情感和表達方式 , 帶給你一種被理解、被陪伴的真實感受 , 讓 AI 真正擁有「人感」 。

https://mp.weixin.qq.com/s/-Kr3ef6PVonJ7m3t842Emg
為什么全雙工語音交互難 , 難在何處?

用戶期待的是 “你說我聽、我說你懂” 的自然對話 , 而非機械的一問一答 。 為了實現自然對話 , 要求系統既要能精準感知雙方交互中的輪次變化 , 又要能抵抗外部其他說話人以及環境噪聲的干擾;既要知道 “何時打斷” 不出錯 , 又要把握 “何時回復” 的最佳時機;還要擺脫閉源 API 的束縛 , 做到全鏈路可控、可私有化部署 。 這些挑戰長期壓制著開源生態的產品化落地 。

FireRedChat 的硬核突破:五個 “真牛” 的點

第一 , 行業首創的 “全雙工 + 私有化” 組合 。 FireRedChat 從設計之初就面向企業級落地 , 完整覆蓋從音頻輸入到語音合成的全鏈路 , 并提供一鍵私有化部署能力 , 在數據安全、成本可控和系統擴展性上全面領先 。

第二 , 自研 pVAD + 輕量 EoT , 讓 “打斷” 又穩又準 。 pVAD 專注識別主要說話人 , 有效抑制環境噪聲與他人說話帶來的誤觸;EoT 準確判斷用戶的表達是否已經具備完整語義 , 避免過早打斷或遲緩回應 , 實現自然輪次轉換 。
【小紅書FireRedChat:首個私有化部署的全雙工大模型語音交互系統】
第三 , 級聯與半級聯雙路線并行 , 兼顧成熟度與體驗 。 級聯鏈路(ASR → LLM → TTS)部署靈活 , 各模塊可獨立優化;半級聯鏈路(AudioLLM → TTS)直連音頻輸入 , 可感知情緒與副語言信息 , 生成更貼心的回應 , 并進一步降低延遲與誤差傳播 。 兩套方案都可直接升級為全雙工 , 滿足不同業務場景的精度、時延與成本權衡 。

第四 , 端到端低時延 , 逼近工業級 。 憑借模塊解耦與流式優化 , FireRedChat 在本地級聯部署下實現接近工業級系統的端到端延遲 , 真正把 “實時”“自然” 落到體驗里 。

第五 , 不僅能聽懂 , 還能 “聽出情緒、說出溫度” 。 通過 AudioLLM 與 FireRedTTS2 的聯動 , 系統可捕捉用戶聲學線索(情緒、語調、節奏) , 在回應中自然體現關懷與共情:你失落時能安慰鼓勵 , 你興奮時共情分享 , 讓 AI 從 “能回答” 走向 “有溫度” 的陪伴與理解 。

解耦帶來可控 , 可插拔帶來進化



FireRedChat 將全雙工語音交互解耦為三個核心模塊 , 既保留端到端鏈路的高性能 , 又確保系統的可維護性和可擴展性 。

輪次轉換控制器(Turn-taking Controller):基于自研 pVAD 與輕量 EoT , 實時判斷 “誰在說、何時停、何時該我說” , 像一位聰明的主持人維持對話秩序 , 顯著降低噪聲與多說話人場景下的誤打斷 。

交互模塊(Interaction Module):支持兩種模式 。 級聯模式整合 FireRedASR 與 FireRedTTS-1s , TTS 支持上下文感知 , 聲音更貼合語境;半級聯模式以 AudioLLM 直達語音語義與情感 , 再接 FireRedTTS-2 完成富表達的合成 , 打造更順滑的 “聽 —— 想 —— 說” 鏈路 。

對話管理器(Dialogue Manager):負責對話狀態管理并擴展系統能力 , 支持工具調用(如 WebSearch)、RAG 檢索增強、插件擴展與工作流管理 。 系統內置與 Dify 的集成樣例 , 便于開發者進行提示詞工程、知識庫構建與應用編排 , 快速把 Demo 變成產品 。

開源、免費、可私有化

為了給開發者與企業真正的掌控力 , FireRedChat 堅持徹底開源:核心模塊 TTS、ASR、pVAD、EoT 全部開放 , 無需 API 費用與外部依賴 。 系統支持在企業私有環境一鍵部署 , 數據資產不出域 , 安全合規可審計 。 基于 LiveKit 的清晰模塊化與完善文檔、簡潔 Web UI , 使得普通用戶即開即用 , 開發者可快速二次開發與深度定制 。

典型應用場景

智能語音助手:自然打斷、即時回應 , 貼近真人對話節奏 。 客服與外呼:商場、車站等復雜聲場仍能穩定識別與響應 。 教育與心理陪伴:情緒感知與表達豐富度帶來更強的同理心體驗 。
更客觀的結果背書

FireRedChat 設立系統級指標 , 聚焦真實體驗的三件事:更少的誤打斷 , 更準的語義端點檢測 , 更低的延遲 。

打斷準確率方面 , pVAD 顯著減少噪聲和無關說話人的誤打斷 , 并通過微小等待(如 50ms)在魯棒與靈敏之間取得更優權衡 。



語義端點檢測準確率方面 , EoT 讓系統更懂 “你說完沒” , 減少尬等與搶話 。



端到端延遲方面 , 本地級聯部署下的響應接近工業級閉源系統 , 全面超越開源框架 , 將 “即時反饋” 變成常態 。



總結與展望

FireRedChat 以 “全雙工+私有化+全鏈路開源” 的組合拳 , 為全雙工語音交互貢獻了小紅書方案 。 通過可插拔架構、精準輪次控制與雙路線深度優化 , 系統在自然度、魯棒性與時延上取得突破性進展 , 影響語音交互體驗的性能領先其他開源框架 , 時延上逼近工業級閉源系統 。

未來 , FireRed Team 將持續迭代 FireRedChat , 融入更強大的 AudioLLM、更豐富的多模態交互 , 并與全球開源社區共建 , 把語音 AI 從 “能用” 推向 “好用” , 再到 “人人可用、處處可用” 。

    推薦閱讀