讓RAG真正讀懂“言外之意”!新框架引入詞匯多樣性,刷新多基準

文章圖片

文章圖片

文章圖片
RAG準確率提升10.6% , 多項基準拿下新SOTA!
ACL 2025最新研究提出Lexical Diversity-aware RAG (DRAG) 框架 , 首次系統性地將詞匯多樣性引入RAG的檢索與生成過程 , 提供了一個輕量、通用且易擴展的解決方案 。
在多項基準任務中 , 該方法帶來了顯著性能提升 , 尤其在HotpotQA上刷新了當前最優結果 。
在大語言模型的浪潮下 , Retrieval-Augmented Generation(RAG)已經成為提升模型事實性和時效性的重要手段 。 然而 , 現有方法普遍忽視了一個看似細微卻極為關鍵的問題——詞匯多樣性(lexical diversity) 。
同一個問題 , 不同的表達方式 , 往往讓檢索模型“暈頭轉向” , 最終導致錯誤答案 。
由此 , 來自北航、北大、中關村實驗室的研究團隊提出了這項最新工作 , 他們首次將“詞匯多樣性”引入檢索增強生成的相關性評估過程 , 并通過新穎的風險稀疏校準機制解決了生成階段被無關信息干擾的問題 。
團隊認為 , 該方法對信息檢索、問答系統、專業領域大模型應用都具有重要價值 。 未來 , 他們計劃進一步拓展該方法到更多專業場景 , 讓大模型不僅能“讀懂” , 更能“理解”復雜的人類語言表達 。
詞匯多樣性:RAG的隱形痛點研究團隊指出 , 現有RAG方法大多通過“單一標準”判斷檢索文檔是否相關 , 但現實情況要復雜得多 。 如圖所示 , 以問題“What is Hattie McDaniel’s occupation?”為例 , 其中的語義成分表現出不同程度“詞匯多樣性”:
不變詞(Invariant):人名“Hattie McDaniel”一般不會變形; 可變詞(Variant):詞語“occupation”可以對應“profession”“actress”甚至“Academy Award”; 補充信息(Supplementary):答案可能依賴“American celebrity”等擴展語境 。
這種詞匯多樣性往往導致模型錯誤地將部分相似但無關的文檔判為相關 , 或者忽略了真正有用的信息 。
兩大關鍵創新為解決“詞匯多樣性”帶來的挑戰 , 研究團隊提出了該框架 , 核心在于兩個互補模塊:
1、Diversity-sensitive Relevance Analyzer (DRA)
傳統檢索相關性評估往往“一刀切” , 把整體查詢和檢索文檔進行比較 。 該方法則進一步拆解查詢語義 , 針對不同成分采用差異化策略:
不變成分:如人名、地名等必須精確匹配的關鍵詞 , 該方法強調其檢索文檔應與該成分嚴格匹配; 可變成分:如“occupation”—“profession” , DRA借助LLM的語義擴展和分析能力 , 在檢索時允許一定語義靈活性; 補充成分:如“American celebrity” , 該方法通過檢索需求的明確程度來判斷是否需要真正提供有用的補充證據 。在此基礎上 , 該方法通過該模塊對相似度檢索結果進行重排序 , 輸出一個更細粒度、多維度的相關性評分 , 避免檢索時存在的“假陽性”和“假陰性”的常見問題 。
2. Risk-guided Sparse Calibration
即使有了更精準的檢索 , 生成階段仍然可能“被干擾” 。 Risk-guided Sparse Calibration的設計靈感來自“風險控制”:它會實時監控每個生成token的“被誤導風險” , 并在必要時進行解碼校準 。
詞匯風險 (Lexical Risk):檢測生成內容是否過度依賴低相關的詞匯; 注意力風險 (Attention Risk):評估模型注意力是否集中在無關段落; 預測風險 (Prediction Risk):衡量當前預測是否與檢索證據存在沖突 。RSC的獨特之處在于它的稀疏性 (sparse calibration):只對高風險token動態干預 , 而不會對全局輸出強行重寫 , 從而保證了生成質量與效率的平衡 。
最終 , DRA負責“挑選更靠譜的材料” , RSC負責“防止模型走偏” , 形成了檢索與生成環節的雙保險 , 讓RAG更穩健、更準確 。
實驗結果:顯著超越現有方法團隊在多個開放域問答基準上驗證了該方法:
其中 , 該方法在PopQA/TriviaQA(短文本問答):準確率分別提升4.9%和4.4%;HotpotQA/2WikiMultiHopQA(多跳問答):準確率均提升10.6% , 展現出強泛化性;在ASQA(長答案生成):在str-em、QA-F1等指標上刷新SOTA 。
不僅如此 , 該方法在不同類型、大小的模型上均表現出顯著增益 , 如Llama2-7B ,Llama2-13B Qwen2-7B Alpaca-7B和Mistral-7B等 。
論文鏈接:
https://aclanthology.org/2025.acl-long.1346/代碼(即將開源):
https://github.com/Zhange21/DRAG
— 完 —
量子位 QbitAI
【讓RAG真正讀懂“言外之意”!新框架引入詞匯多樣性,刷新多基準】關注我們 , 第一時間獲知前沿科技動態
推薦閱讀
- 6個MCP服務器讓智能體AI賦能IT運維工作
- 谷歌讓AI更易獲取真實世界數據
- 超精辟!1000元的手機怎么選?如何讓自己不吐槽
- AI 到底會不會做生意?1688 的答案讓人驚喜
- 小米17 VS iPhone 17:參數碾壓≠體驗完勝,安卓能否真正媲美蘋果?
- 幾何圖片寫標題就能讓AI更聰明,UIUC發布高質量可泛化幾何數據集
- 假期不想人擠人?華為手機“右滑一下”的負一屏,讓宅家比旅游還爽
- 華為FreeClip 2 耳夾耳機:讓「戴著不摘」成為新的使用習慣
- 越來越讓人咂舌,追覓計劃開拓小行星探索、采礦業務
- 天璣9500搶先體驗:旗艦的新標桿,在于真正的體驗躍升
