復旦NLP&美團LongCat重磅發布LRMs能力邊界探測新范式

復旦NLP&美團LongCat重磅發布LRMs能力邊界探測新范式

文章圖片

復旦NLP&美團LongCat重磅發布LRMs能力邊界探測新范式

文章圖片

復旦NLP&美團LongCat重磅發布LRMs能力邊界探測新范式

文章圖片

復旦NLP&美團LongCat重磅發布LRMs能力邊界探測新范式

文章圖片

復旦NLP&美團LongCat重磅發布LRMs能力邊界探測新范式

文章圖片

復旦NLP&美團LongCat重磅發布LRMs能力邊界探測新范式

文章圖片




陸毅 , 復旦大學自然語言處理實驗室碩士生 , 在 ACL、EMNLP、COLM、NeurIPS 等頂會發表論文十余篇 , LongCat Team 核心成員 , 研究方向為大模型的復雜推理和長序列建模 , 指導老師為桂韜老師 。
郭林森 , 碩士畢業于東南大學 , 在 NAACL、EMNLP、Recsys 等會議發表論文多篇 , 目前就職于美團 , LongCat Team 核心成員 , 研究方向為大模型評測與數據價值挖掘 。
王嘉寧 , 獲得華東師范大學博士學位 , 曾前往 UCSD 訪問學習 , 在 ACL、EMNLP、AAAI、ICLR 等頂會發表論文數十篇 , 目前就職于美團 , LongCat Team 核心成員 , 研究方向為大模型訓練與復雜推理 。


研究背景:從「單步推理」到「長鏈決策」


OpenAI o1、DeepSeek-R1 等大型推理模型(LRMs)的出現 , 標志著 AI 推理能力進入了「測試時擴展」的新紀元 。 通過長鏈推理 Long Chain-of-Thought(CoT) , 這些模型在數學推理、代碼生成、智能體任務等領域取得了令人矚目的突破 。


然而 , 當前的訓練與評測范式存在一個根本性的局限:幾乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的單步問題 , 問題之間相互獨立 , 模型只需「回答一個問題 , 然后結束」 。 但真實世界的推理場景往往截然不同:


  • 一個軟件工程師需要連續調試多個相互依賴的代碼模塊
  • 一個數學研究者需要基于前序定理推導后續結論
  • 一個智能助手需要在多輪對話中逐步完成復雜任務規劃

這些場景要求模型具備跨問題的長鏈推理能力 —— 不僅要解決單個問題 , 還要在多個相互關聯的子問題間維持推理連貫性、合理分配思考資源、進行跨步驟的反思與糾錯 。


這引出了一個核心問題:大型推理模型的長鏈推理能力邊界究竟在哪里?


現有評測無法回答這個問題 , 傳統訓練數據也無法培養這種能力(如圖所示 , 模型在長程推理場景下性能下降嚴重) 。



R1 系列模型在長程推理場景下理論準確率和實際準確率的差異


為填補這一空白 , 復旦大學與美團 LongCat Team 聯合推出 R-HORIZON—— 首個系統性評估與增強 LRMs 長鏈推理能力的方法與基準 。





  • 論文標題: R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
  • 論文地址: https://arxiv.org/abs/2510.08189
  • 項目主頁: https://reasoning-horizon.github.io
  • 代碼地址: https://github.com/meituan-longcat/R-HORIZON
  • 數據集: https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879


R-HORIZON:揭開推理模型「能力地平線」


核心創新:Query Composition 方法


R-HORIZON 提出了一種簡潔而強大的問題組合(Query Composition)方法 , 通過建立問題間的依賴關系 , 將孤立任務轉化為復雜的多步驟推理場景 。


以數學任務為例:


1. 提取關鍵信息:從多個獨立問題中提取核心數值、變量等信息
2. 建立依賴關系:將前一個問題的答案嵌入到后一個問題的條件中
3. 形成推理鏈:模型必須按順序正確解決所有問題才能得到最終答案


這種方法具有三大優勢:


  • 可擴展性:可靈活控制推理鏈長度(n=2 4 8...)
  • 可控性:可靈活設定問題間的依賴關系
  • 低成本:基于現有數據集即可構建 , 無需額外標注

基于這一方法 , 我們構建了長鏈推理的評測基準 R-HORIZON Benchmark , 用于系統性評估 LRMs 在多步推理場景下的真實能力;同時 , 我們還構建了長鏈推理的訓練數據 , 通過強化學習(RLVR)訓練來提升模型的長鏈推理能力 。



R-HORIZON 方法示意圖 —— 從單一問題到復雜推理鏈的轉化過程以及 R-HORIZON 的應用場景


R-HORIZON Benchmark:全面的長鏈推理評測基準


基于 Query Composition 方法 , 我們構建了 R-HORIZON Benchmark , 涵蓋 6 大代表性數據集:





核心發現:頂級模型的「推理斷崖」


我們評測了 20+ 個主流 LRMs(包括 o4-mini、Claude-Sonnet-4、DeepSeek-R1 等頂級商業模型以及開源模型) , 結果揭示了一個令人震驚的現象:即使是最先進的模型 , 在長鏈推理場景下也會出現性能斷崖式下降 。


關鍵發現:


  • 普遍性能衰退:所有模型隨著問題數量增加都出現顯著性能下降 。 DeepSeek-R1 在 AIME25 單問題場景下準確率達 87.3% , 但在 5 個組合問題場景下暴跌至 24.6%
  • 模型規模影響:更大的模型對多步推理挑戰展現出更強的韌性
  • 任務依賴性衰退:代碼生成任務相比數學任務表現出更陡峭的性能下降;許多推理模型在網頁搜索場景中失去了工具調用能力



R-HORIZON Benchmark 評測結果 —— 所有模型均出現顯著性能衰退


深度分析:推理模型的三大瓶頸


為了理解性能斷崖背后的原因 , 我們進行了深入的機制分析 , 發現當前 LRMs 存在三個關鍵瓶頸:


1. 有效推理長度受限


隨著相互依賴問題數量的增加 , LRMs 難以維持其性能 。 實際準確率與理論準確率之間的差距顯著擴大 , 表明模型無法在更長的推理范圍內保持原有性能 。


深入分析發現:
  • 模型錯誤穩定在特定的上下文范圍內
  • 7B 模型的主要錯誤范圍在 (4-6K tokens)
  • 32B 模型將范圍擴展到 (8-10K tokens)
  • 這表明更大的模型擁有更長的有效推理邊界



R1-Qwen-7B 和 R1-Qwen-32B 在準確率和錯誤位置上的分析


2. 反思機制高度局部化


我們分析了模型的「反思」行為 , 發現:
  • 模型的反思頻率隨著問題數量增加而上升并趨于收斂
  • 超過半數的復雜任務完全缺乏長程反思(跨越當前問題的反思)
  • 這表明當前 LRMs 的反思機制高度局部化 , 不足以支撐長鏈場景



【復旦NLP&美團LongCat重磅發布LRMs能力邊界探測新范式】MATH500 數據集上的反思行為分析


3. 思考預算分配失衡


最令人意外的發現是:包括 DeepSeek-R1 在內的主流 LRMs 都無法有效地在推理范圍內分配思考預算 。


  • 模型傾向于過度分配 tokens 給早期推理階段
  • 未能合理地將資源分配給后續的關鍵問題
  • 這種失衡嚴重影響了整體推理鏈的完成質量



不同組合問題數量下各模型的思考預算分配


R-HORIZON 訓練:重塑推理模型的能力邊界


發現問題只是第一步 , 我們進一步探索:能否通過使用組合數據進行強化學習訓練來突破這些瓶頸?


RLVR with R-HORIZON:用長鏈數據訓練推理模型


我們使用 R-HORIZON 構建的長鏈推理數據并使用 GRPO 算法進行訓練 , 訓練策略:
  • 基于主流 RLVR 算法 GRPO 進行訓練
  • 使用 R-HORIZON 組合數據(n=2 n=4)
  • 設計不同的獎勵函數進行對比實驗


突破性成果:雙重性能提升


實驗結果令人振奮:R-HORIZON 訓練不僅顯著提升長鏈任務表現 , 連單問題性能也大幅增強 。



加粗數字表示該列最佳成績



不同訓練配置下的性能對比 。 \"Origin\" 表示單問題場景 , \"n=X\" 表示 X 個組合問題場景 , \"Multi\" 表示多問題場景的平均性能


關鍵發現:


1. 雙重性能提升:使用 n=2 組合問題訓練 , 不僅大幅提升多步推理性能(AIME24 n=2 +17.4 分) , 單問題性能也顯著增強(AIME24 單題 +7.5 分)
2. 可擴展復雜度:增加組合復雜度(n=4)增強了模型處理需要更多推理步驟問題的能力 , 在 MATH500 (n=8) 上達到 50.6%


訓練帶來的質變


R-HORIZON 訓練不僅提升了性能數字 , 更帶來了推理機制的深層改變:


更高效的推理長度:
訓練顯著改善了模型在組合任務上的性能 , 展現出更好的泛化到更長推理鏈的能力 , 同時緩解了「overthinking」現象(生成更短、更高效的回答) 。


更合理的預算分配:
模型學會了在多步問題中進行更合理的 token 預算分配 , 不再「重頭輕尾」 。


更長程的反思能力:
R-HORIZON 促進了模型進行更長程反思的頻率增加 , 直接改善了長鏈推理性能 。



圖:使用標準數據集和組合數據集進行強化學習的效果分析


結論與展望:開啟長鏈推理新紀元


R-HORIZON 的推出 , 標志著大型推理模型研究進入了一個新的階段 —— 從「能解決什么問題」到「能走多遠」的范式轉變 。


技術貢獻


  • 首個長鏈推理評測基準:系統性揭示了 LRMs 的能力邊界 , 包括有效推理長度、反思范圍和思考預算分配的局限性
  • 可擴展訓練范式:提供了低成本、高效率的能力提升路徑 , 通過 Query Composition 方法實現可控的長鏈推理數據構建
  • 深度機制分析:為未來的推理模型指明了改進方向 , 揭示了當前模型在長鏈推理中的三大瓶頸

開放生態


R-HORIZON 框架已全面開源 , 包括:


  • 完整評測代碼與 Benchmark 數據
  • 訓練數據和訓練代碼
  • 數據構建流程
  • 詳細文檔與使用教程


期待與全球研究者攜手 , 共同推動下一代推理模型的發展 , 讓人工智能在現實世界中展現出更卓越的長鏈推理能力 。


資源鏈接:
Paper:https://arxiv.org/abs/2510.08189
Project Page:https://reasoning-horizon.github.io
GitHub:https://github.com/meituan-longcat/R-HORIZON
Dataset:https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879

    推薦閱讀