小模型讀書大模型思考:上海AI Lab提出新知識推理解耦方法DRIFT

小模型讀書大模型思考:上海AI Lab提出新知識推理解耦方法DRIFT

文章圖片

小模型讀書大模型思考:上海AI Lab提出新知識推理解耦方法DRIFT

文章圖片

小模型讀書大模型思考:上海AI Lab提出新知識推理解耦方法DRIFT

文章圖片

小模型讀書大模型思考:上海AI Lab提出新知識推理解耦方法DRIFT

文章圖片

小模型讀書大模型思考:上海AI Lab提出新知識推理解耦方法DRIFT


本文主要完成單位為上海人工智能實驗室 , 主要作者謝文軒、譚鑫、陸超超、胡俠等 , 通訊作者為實驗室青年研究員汪旭鴻 。
當長上下文成為負擔:我們是否真的需要「把一切都塞進推理模型」?
當前 , 隨著大家對大模型推理能力要求的提升 , 輸入上下文也在不斷變長 , 1M tokens 及以上的上下文窗口正逐漸成為現實 , 但「讀得更長」一定會帶來推理提升嗎?
在現實應用中 , 情況往往并不理想 。 當推理模型直接處理超長原始文本時 , 瓶頸往往不再來自「不會推理」 , 而是來自讀不完、讀不動、讀不準:
推理模型需要處理大量與任務無關的冗余信息; 計算成本與延遲隨 token 數快速上升; 關鍵信息容易被淹沒在長文本中; 原始長文本中可能藏匿惡意內容 , 增加模型安全風險 。這也引出了一個更本質的問題:知識獲?。 ╮eading)與邏輯推理(reasoning) , 是否真的必須由同一個模型完成?
復雜推理或許需要大模型 , 但從海量信息中獲取知識未必如此 。
為解決這一問題 , 來自上海人工智能實驗室與復旦大學的研究團隊提出了 DRIFT:一種將知識獲取與推理明確解耦的長上下文推理框架 。
DRIFT 采用雙模型架構:輕量知識模型負責讀取超長文檔 , 并將與當前任務強相關的關鍵信息壓縮成高密度隱空間表示;推理模型直接利用這些表示進行推理 , 無需處理龐雜原文 。
實驗結果表明:DRIFT 顯著提升推理效率 , 并在高壓縮比設置下仍保持甚至提升任務性能 , 展示了 reading–reasoning 解耦的實際價值 。
更有意思的是 , 即使沒有任何安全訓練 , 由于推理模型不再直接接觸原始文本 , 該結構在多種安全基準上表現出更強的魯棒性 。

論文鏈接:https://arxiv.org/abs/2602.10021 開源主頁:https://github.com/Lancelot-Xie/DRIFT現有方法:壓縮、檢索與記憶 , 問題出在「誰來讀」「怎么讀」
為應對超長上下文帶來的計算和推理壓力 , 現有工作從三個方向入手:壓縮輸入、引入檢索 , 或參數化存儲知識 。
壓縮的方法有兩類 , 一類方法通過硬壓縮直接刪除「低重要性」token, 但依賴局部、靜態的重要性估計 , 容易誤刪關鍵信息;另一類工作采用軟壓縮 , 將文本映射為 latent 表示 , 但本質仍是靜態壓縮 , 壓縮結果與任務無關 , 容易保留冗余信息而忽視有用信息 。
此外 , 一些方法依賴 RAG 從外部語料中檢索相關內容 , 但整體效果受限于檢索器性能 , 對檢索策略較為敏感 。 也有工作通過參數化記憶模塊存儲知識 , 推理效率較高 , 但通常依賴預訓練 , 難以支持即時注入的超長新知識 。
此外 , DeepSeek 的 Engram 通過條件化參數記憶 , 將可復用的知識模式從 Transformer 主干中分離出來 , 在架構層面實現了知識存儲與推理計算的解耦 , 從而提升效率與性能 。 不過 , Engram 的記憶主要面向靜態長期知識 , 更適合對已知信息的高效調用;對于即時注入的新知識 , 其適配性仍然有限 。
本文核心貢獻:
提出 reading–reasoning 解耦的結構性視角:將知識獲取與邏輯推理顯式分離 , 打破推理模型必須直接處理原始上下文的傳統范式; 重構知識輸入模態:由小模型從超長文檔中抽取與任務相關的高密度知識表示 , 不再以冗余的原始文本作為推理模型輸入; 構建并驗證高效的雙模型框架:在多個長上下文推理基準上表明 , 該架構在顯著壓縮上下文規模的同時 , 仍能保持甚至提升復雜推理性能 , 并大幅降低推理延遲 。DRIFT 的核心:將 reading 與 reasoning 明確解耦
DRIFT 的核心思想并不是「如何壓得更狠」 , 而是重新定義知識進入推理模型的方式:推理模型不再直接處理冗長的自然語言文本 , 而是接收一種由小模型從原文中提煉出的、為推理而設計的高密度知識表示 。 這種表示可以被視為獨立于文本形式的「知識輸入模態」 。
基于這一視角 , DRIFT 關注的不是改進文本處理流程 , 而是回答一個更根本的問題:讀取知識與執行推理 , 是否本就應由不同模塊承擔?
在 DRIFT 中 , 小模型負責「讀文檔」并抽取與當前問題相關的關鍵信息 , 將其轉化為緊湊的內部知識表示;推理模型則直接以這一模態作為輸入 , 而無需再重新閱讀和解析原始文本 。
基于這種思想 , DRIFT 的架構如圖所示:

DRIFT 整體框架圖
Knowledge Model(小模型)
處理超長文檔輸入; 并行讀取文本塊并提取 query-relevant 信息 , 壓縮為隱空間知識表示 。Reasoning Model(大模型)
不再接觸原始長文本; 僅基于隱空間中的高密度事實表示執行推理 。Implicit Fact Tokens:一種中間知識表示
Implicit Fact Tokens 并不是:
句子級摘要 檢索得到的文本片段而是一種:
基于問題生成的隱空間表示 高信息密度的知識表示 專門為推理設計的輸入模態三階段訓練:教模型「怎么讀 , 也怎么想」
DRIFT 采用三階段訓練策略:
LFRP:重建任務 , 讓知識模型學會壓縮信息; QAFT-DC:動態壓縮任務 , 讓知識模型學會基于 query 壓縮相關信息; QAFT-QA:QA 任務 , 讓推理模型學會基于 latent facts 推理 。
實驗結果:壓得更狠 , 反而想得更清楚
在 LongBench-v2、LoCoMo、BAMBOO、L-Eval 等基準上進行了測試 , 涵蓋長文本問答、多文檔摘要、多輪對話長程記憶等等場景 , 模型采用了知識模型 3B 和推理模型 7B 的組合:
32× 壓縮:性能整體接近甚至超過 Full-context; 64× / 128×:穩定優于 ICAE / COCOM /xRAG 等壓縮方法; 推理延遲:在各上下文長度下保持最低或接近最低 。

種種實驗說明:當閱讀和推理被清晰拆分后 , 模型反而能更高效地工作 。
推理能力并未被削弱:通用語言理解依然在線
一個自然的問題是:脫離原文閱讀后 , 推理模型是否會失去通用能力?
實驗表明并非如此 , 訓練后的推理模型仍能處理復雜推理、知識問答、代碼生成和指令遵循等通用任務 。

解耦架構帶來的安全收益

實驗還發現 , 在 Flames、SaladBench、AutoDAN、PAIR 等安全基準上 , DRIFT 的安全魯棒性也顯著優于原始模型 。
更有意思的是 , 這一提升并未經過任何安全相關的訓練 。 研究者認為這可能源于 DRIFT 的結構:推理模型不再直接暴露于攻擊 prompt , 而是基于中間知識表示進行推理 , 從而天然降低了越獄攻擊或安全誘導的影響 。
知識解耦的典型應用 —— 蛋白質理解任務
DRIFT 提供的是一種結構性視角:讓小模型「讀」 , 讓大模型「想」 。
與其讓推理模型承擔所有職責 , 不如讓它專注于最擅長的推理能力 。 這一思路在 AGI for Science 中同樣成立 。 以蛋白質任務為例 , 我們的另一項工作「BioBridge: Bridging Proteins and Language for Enhanced Biological Reasoning with LLMs」中提出了類似的問題:是否有必要讓 LLM 直接理解蛋白質序列?
BioBridge 的答案與 DRIFT 一致:由專門模型負責「讀懂蛋白」 , LLM 專注「推理」 。
具體來說 , 就是使用蛋白語言模型(PLM)解析序列并生成 LLM 可理解的中間表示 , 再由 LLM 基于此進行任務相關的推理 。
這種 reading–reasoning 解耦 使 BioBridge 同時保持:
接近 SOTA 蛋白質模型 的專業能力 原有 LLM 的通用能力
總結
從 DRIFT 到 BioBridge , 團隊看到的是同一條清晰的技術主線:讓推理模型直接「讀」原始知識輸入往往并不是最優選擇;更有效的做法 , 是先將領域知識提煉為適合推理的表示 , 再交由推理模型進行推理 。
【小模型讀書大模型思考:上海AI Lab提出新知識推理解耦方法DRIFT】這種結構性的解耦 , 不僅提高了效率 , 還可能帶來額外的安全收益 。

    推薦閱讀