讓RAG真正讀懂“言外之意”！新框架引入詞匯多樣性，刷新多基準

文章圖片

文章圖片

文章圖片

RAG準確率提升10.6% ，多項基準拿下新SOTA！
ACL 2025最新研究提出Lexical Diversity-aware RAG (DRAG) 框架，首次系統性地將詞匯多樣性引入RAG的檢索與生成過程，提供了一個輕量、通用且易擴展的解決方案。
在多項基準任務中，該方法帶來了顯著性能提升，尤其在HotpotQA上刷新了當前最優結果。

在大語言模型的浪潮下， Retrieval-Augmented Generation（RAG）已經成為提升模型事實性和時效性的重要手段。然而，現有方法普遍忽視了一個看似細微卻極為關鍵的問題——詞匯多樣性（lexical diversity）。
同一個問題，不同的表達方式，往往讓檢索模型“暈頭轉向” ，最終導致錯誤答案。
由此，來自北航、北大、中關村實驗室的研究團隊提出了這項最新工作，他們首次將“詞匯多樣性”引入檢索增強生成的相關性評估過程，并通過新穎的風險稀疏校準機制解決了生成階段被無關信息干擾的問題。
團隊認為，該方法對信息檢索、問答系統、專業領域大模型應用都具有重要價值。未來，他們計劃進一步拓展該方法到更多專業場景，讓大模型不僅能“讀懂” ，更能“理解”復雜的人類語言表達。
詞匯多樣性：RAG的隱形痛點研究團隊指出，現有RAG方法大多通過“單一標準”判斷檢索文檔是否相關，但現實情況要復雜得多。如圖所示，以問題“What is Hattie McDaniel’s occupation?”為例，其中的語義成分表現出不同程度“詞匯多樣性”：
不變詞（Invariant）：人名“Hattie McDaniel”一般不會變形；可變詞（Variant）：詞語“occupation”可以對應“profession”“actress”甚至“Academy Award”；補充信息（Supplementary）：答案可能依賴“American celebrity”等擴展語境。
這種詞匯多樣性往往導致模型錯誤地將部分相似但無關的文檔判為相關，或者忽略了真正有用的信息。
兩大關鍵創新為解決“詞匯多樣性”帶來的挑戰，研究團隊提出了該框架，核心在于兩個互補模塊：
1、Diversity-sensitive Relevance Analyzer （DRA)
傳統檢索相關性評估往往“一刀切” ，把整體查詢和檢索文檔進行比較。該方法則進一步拆解查詢語義，針對不同成分采用差異化策略：
不變成分：如人名、地名等必須精確匹配的關鍵詞，該方法強調其檢索文檔應與該成分嚴格匹配；可變成分：如“occupation”—“profession” ， DRA借助LLM的語義擴展和分析能力，在檢索時允許一定語義靈活性；補充成分：如“American celebrity” ，該方法通過檢索需求的明確程度來判斷是否需要真正提供有用的補充證據。在此基礎上，該方法通過該模塊對相似度檢索結果進行重排序，輸出一個更細粒度、多維度的相關性評分，避免檢索時存在的“假陽性”和“假陰性”的常見問題。

2. Risk-guided Sparse Calibration
即使有了更精準的檢索，生成階段仍然可能“被干擾” 。 Risk-guided Sparse Calibration的設計靈感來自“風險控制”：它會實時監控每個生成token的“被誤導風險” ，并在必要時進行解碼校準。
詞匯風險 (Lexical Risk)：檢測生成內容是否過度依賴低相關的詞匯；注意力風險 (Attention Risk)：評估模型注意力是否集中在無關段落；預測風險 (Prediction Risk)：衡量當前預測是否與檢索證據存在沖突。RSC的獨特之處在于它的稀疏性 (sparse calibration)：只對高風險token動態干預，而不會對全局輸出強行重寫，從而保證了生成質量與效率的平衡。
最終， DRA負責“挑選更靠譜的材料” ， RSC負責“防止模型走偏” ，形成了檢索與生成環節的雙保險，讓RAG更穩健、更準確。
實驗結果：顯著超越現有方法團隊在多個開放域問答基準上驗證了該方法：

其中，該方法在PopQA/TriviaQA（短文本問答）：準確率分別提升4.9%和4.4%；HotpotQA/2WikiMultiHopQA（多跳問答）：準確率均提升10.6% ，展現出強泛化性；在ASQA（長答案生成）：在str-em、QA-F1等指標上刷新SOTA 。

不僅如此，該方法在不同類型、大小的模型上均表現出顯著增益，如Llama2-7B ，Llama2-13B Qwen2-7B Alpaca-7B和Mistral-7B等。

論文鏈接：
https://aclanthology.org/2025.acl-long.1346/代碼（即將開源）:
https://github.com/Zhange21/DRAG
— 完 —
量子位 QbitAI
【讓RAG真正讀懂“言外之意”！新框架引入詞匯多樣性，刷新多基準】關注我們，第一時間獲知前沿科技動態

讓RAG真正讀懂“言外之意”！新框架引入詞匯多樣性，刷新多基準

推薦閱讀

在公司被同事恐嚇怎么辦

飛機發票在哪里打

微信無提示聲音怎么辦

及主出行而以奴驂乘而的意思

泰拉瑞亞如何快速尋找精金礦

有什么花是春天開花的

雙11光棍節脫單告白文案，雙十一光棍節心情說說大全

紅茶能放冰箱保鮮嗎紅茶放冰箱保鮮還可以喝嗎

發燒可以吃雞蛋嗎發燒盡量不吃雞蛋

二十四節氣種菜的口訣二十四節氣種菜的口訣內容是什么

想買農村的房子怎么操作農村怎么去買房買車子好

大表姐的時尚包包狂刷存在感，LV、Hermes水桶包成為新潮

國產智能手機哪個牌子好,小米成唯一國產品牌

滁州市2018年城南房價是多少,坐標安徽省滁州市

三星note4價格，三星note4電信版價格是多少

有過道的戶型怎么裝修