復旦NLP&美團LongCat重磅發布LRMs能力邊界探測新范式

2025-10-24 16:51 美團數學 deepseek

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

陸毅，復旦大學自然語言處理實驗室碩士生，在 ACL、EMNLP、COLM、NeurIPS 等頂會發表論文十余篇， LongCat Team 核心成員，研究方向為大模型的復雜推理和長序列建模，指導老師為桂韜老師。
郭林森，碩士畢業于東南大學，在 NAACL、EMNLP、Recsys 等會議發表論文多篇，目前就職于美團， LongCat Team 核心成員，研究方向為大模型評測與數據價值挖掘。
王嘉寧，獲得華東師范大學博士學位，曾前往 UCSD 訪問學習，在 ACL、EMNLP、AAAI、ICLR 等頂會發表論文數十篇，目前就職于美團， LongCat Team 核心成員，研究方向為大模型訓練與復雜推理。

研究背景：從「單步推理」到「長鏈決策」

OpenAI o1、DeepSeek-R1 等大型推理模型（LRMs）的出現，標志著 AI 推理能力進入了「測試時擴展」的新紀元。通過長鏈推理 Long Chain-of-Thought（CoT），這些模型在數學推理、代碼生成、智能體任務等領域取得了令人矚目的突破。

然而，當前的訓練與評測范式存在一個根本性的局限：幾乎所有主流 Benchmark（如 MATH500、AIME）都聚焦于孤立的單步問題，問題之間相互獨立，模型只需「回答一個問題，然后結束」。但真實世界的推理場景往往截然不同：

一個軟件工程師需要連續調試多個相互依賴的代碼模塊
一個數學研究者需要基于前序定理推導后續結論
一個智能助手需要在多輪對話中逐步完成復雜任務規劃

這些場景要求模型具備跨問題的長鏈推理能力 —— 不僅要解決單個問題，還要在多個相互關聯的子問題間維持推理連貫性、合理分配思考資源、進行跨步驟的反思與糾錯。

這引出了一個核心問題：大型推理模型的長鏈推理能力邊界究竟在哪里？

現有評測無法回答這個問題，傳統訓練數據也無法培養這種能力（如圖所示，模型在長程推理場景下性能下降嚴重）。

R1 系列模型在長程推理場景下理論準確率和實際準確率的差異

為填補這一空白，復旦大學與美團 LongCat Team 聯合推出 R-HORIZON—— 首個系統性評估與增強 LRMs 長鏈推理能力的方法與基準。

論文標題： R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
論文地址： https://arxiv.org/abs/2510.08189
項目主頁： https://reasoning-horizon.github.io
代碼地址： https://github.com/meituan-longcat/R-HORIZON
數據集： https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879

R-HORIZON：揭開推理模型「能力地平線」

核心創新：Query Composition 方法

R-HORIZON 提出了一種簡潔而強大的問題組合（Query Composition）方法，通過建立問題間的依賴關系，將孤立任務轉化為復雜的多步驟推理場景。

以數學任務為例：

1. 提取關鍵信息：從多個獨立問題中提取核心數值、變量等信息
2. 建立依賴關系：將前一個問題的答案嵌入到后一個問題的條件中
3. 形成推理鏈：模型必須按順序正確解決所有問題才能得到最終答案

這種方法具有三大優勢：

可擴展性：可靈活控制推理鏈長度（n=2 4 8...）
可控性：可靈活設定問題間的依賴關系
低成本：基于現有數據集即可構建，無需額外標注

基于這一方法，我們構建了長鏈推理的評測基準 R-HORIZON Benchmark ，用于系統性評估 LRMs 在多步推理場景下的真實能力；同時，我們還構建了長鏈推理的訓練數據，通過強化學習（RLVR）訓練來提升模型的長鏈推理能力。

R-HORIZON 方法示意圖 —— 從單一問題到復雜推理鏈的轉化過程以及 R-HORIZON 的應用場景

R-HORIZON Benchmark：全面的長鏈推理評測基準

基于 Query Composition 方法，我們構建了 R-HORIZON Benchmark ，涵蓋 6 大代表性數據集：

核心發現：頂級模型的「推理斷崖」

我們評測了 20+ 個主流 LRMs（包括 o4-mini、Claude-Sonnet-4、DeepSeek-R1 等頂級商業模型以及開源模型），結果揭示了一個令人震驚的現象：即使是最先進的模型，在長鏈推理場景下也會出現性能斷崖式下降。

關鍵發現：

普遍性能衰退：所有模型隨著問題數量增加都出現顯著性能下降。 DeepSeek-R1 在 AIME25 單問題場景下準確率達 87.3% ，但在 5 個組合問題場景下暴跌至 24.6%
模型規模影響：更大的模型對多步推理挑戰展現出更強的韌性
任務依賴性衰退：代碼生成任務相比數學任務表現出更陡峭的性能下降；許多推理模型在網頁搜索場景中失去了工具調用能力

R-HORIZON Benchmark 評測結果 —— 所有模型均出現顯著性能衰退

深度分析：推理模型的三大瓶頸

為了理解性能斷崖背后的原因，我們進行了深入的機制分析，發現當前 LRMs 存在三個關鍵瓶頸：

1. 有效推理長度受限

隨著相互依賴問題數量的增加， LRMs 難以維持其性能。實際準確率與理論準確率之間的差距顯著擴大，表明模型無法在更長的推理范圍內保持原有性能。

深入分析發現：

模型錯誤穩定在特定的上下文范圍內
7B 模型的主要錯誤范圍在 (4-6K tokens)
32B 模型將范圍擴展到 (8-10K tokens)
這表明更大的模型擁有更長的有效推理邊界

R1-Qwen-7B 和 R1-Qwen-32B 在準確率和錯誤位置上的分析

2. 反思機制高度局部化

我們分析了模型的「反思」行為，發現：

模型的反思頻率隨著問題數量增加而上升并趨于收斂
超過半數的復雜任務完全缺乏長程反思（跨越當前問題的反思）
這表明當前 LRMs 的反思機制高度局部化，不足以支撐長鏈場景

【復旦NLP&美團LongCat重磅發布LRMs能力邊界探測新范式】MATH500 數據集上的反思行為分析

3. 思考預算分配失衡

最令人意外的發現是：包括 DeepSeek-R1 在內的主流 LRMs 都無法有效地在推理范圍內分配思考預算。

模型傾向于過度分配 tokens 給早期推理階段
未能合理地將資源分配給后續的關鍵問題
這種失衡嚴重影響了整體推理鏈的完成質量

不同組合問題數量下各模型的思考預算分配

R-HORIZON 訓練：重塑推理模型的能力邊界

發現問題只是第一步，我們進一步探索：能否通過使用組合數據進行強化學習訓練來突破這些瓶頸？

RLVR with R-HORIZON：用長鏈數據訓練推理模型

我們使用 R-HORIZON 構建的長鏈推理數據并使用 GRPO 算法進行訓練，訓練策略：

基于主流 RLVR 算法 GRPO 進行訓練
使用 R-HORIZON 組合數據（n=2 n=4）
設計不同的獎勵函數進行對比實驗

突破性成果：雙重性能提升

實驗結果令人振奮：R-HORIZON 訓練不僅顯著提升長鏈任務表現，連單問題性能也大幅增強。

加粗數字表示該列最佳成績

不同訓練配置下的性能對比。 \"Origin\" 表示單問題場景， \"n=X\" 表示 X 個組合問題場景， \"Multi\" 表示多問題場景的平均性能

關鍵發現：

1. 雙重性能提升：使用 n=2 組合問題訓練，不僅大幅提升多步推理性能（AIME24 n=2 +17.4 分），單問題性能也顯著增強（AIME24 單題 +7.5 分）
2. 可擴展復雜度：增加組合復雜度（n=4）增強了模型處理需要更多推理步驟問題的能力，在 MATH500 (n=8) 上達到 50.6%

訓練帶來的質變

R-HORIZON 訓練不僅提升了性能數字，更帶來了推理機制的深層改變：

更高效的推理長度：
訓練顯著改善了模型在組合任務上的性能，展現出更好的泛化到更長推理鏈的能力，同時緩解了「overthinking」現象（生成更短、更高效的回答）。

更合理的預算分配：
模型學會了在多步問題中進行更合理的 token 預算分配，不再「重頭輕尾」。

更長程的反思能力：
R-HORIZON 促進了模型進行更長程反思的頻率增加，直接改善了長鏈推理性能。

圖：使用標準數據集和組合數據集進行強化學習的效果分析

結論與展望：開啟長鏈推理新紀元

R-HORIZON 的推出，標志著大型推理模型研究進入了一個新的階段 —— 從「能解決什么問題」到「能走多遠」的范式轉變。

技術貢獻

首個長鏈推理評測基準：系統性揭示了 LRMs 的能力邊界，包括有效推理長度、反思范圍和思考預算分配的局限性
可擴展訓練范式：提供了低成本、高效率的能力提升路徑，通過 Query Composition 方法實現可控的長鏈推理數據構建
深度機制分析：為未來的推理模型指明了改進方向，揭示了當前模型在長鏈推理中的三大瓶頸

開放生態

R-HORIZON 框架已全面開源，包括：

完整評測代碼與 Benchmark 數據
訓練數據和訓練代碼
數據構建流程
詳細文檔與使用教程

期待與全球研究者攜手，共同推動下一代推理模型的發展，讓人工智能在現實世界中展現出更卓越的長鏈推理能力。

資源鏈接：
Paper：https://arxiv.org/abs/2510.08189
Project Page：https://reasoning-horizon.github.io
GitHub：https://github.com/meituan-longcat/R-HORIZON
Dataset：https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879

推薦閱讀

上一篇：55位中國用戶聯名舉報蘋果：這是一次關于“選擇權”的集體宣言

下一篇：紅米K90系列發布，2599元起售，Redmi沖高正式邁入4000元檔紀元！