
文章圖片

文章圖片

文章圖片
為了解決大型推理模型如何將 LRM 擴展至通過強化學習有效地處理和推理長上下文輸入的難題 , 通義智文提出了 QwenLong-L1 框架 , 該框架通過漸進式上下文擴展將短上下文 LRM 適配到長上下文場景 。 具體而言 , 就是利用預熱監督微調 (SFT) 階段建立穩健的初始策略 , 然后采用課程引導的分階段強化學習技術來穩定策略演化 , 并采用難度感知的回顧性采樣策略來激勵策略探索 。
首先需要知道 , 它解決了什么問題?雖然最近的大型推理模型 (LRM)(例如 OpenAI 的 o1)通過強化學習展現出了令人印象深刻的推理能力 , 但這些改進僅限于短上下文任務(約 4K 個 token) 。
短上下文和長上下文推理 RL 的訓練動態比較
長上下文推理強化學習面臨兩大關鍵挑戰:訓練效率不理想 , 由于熵值降低較多導致獎勵得分提升較慢;優化過程不穩定 , 由于較長輸出的方差較大 , 導致 KL 散度波動較大 。
挑戰在于 , 如何擴展這些模型以處理長上下文輸入(超過 12 萬個 token)同時保持強大的推理能力仍未得到解決 。 這對于需要處理大量文檔、進行深入研究或處理信息密集型環境的實際應用尤其成問題 , 因為在這些環境中 , 模型既需要從長上下文中檢索相關信息 , 又需要執行多步推理 。
它是如何解決這個問題的?QWENLONG-L1 整體架構 , 這是一個新穎的長上下文推理強化學習訓練框架
QwenLong-L1 是一個漸進式上下文擴展框架 , 該框架集成了群體相關強化學習算法、混合獎勵機制和漸進式上下文擴展策略 , 能夠穩定地從短上下文到長上下文的 LRM 進行自適應 , 并具備強大的上下文基礎和多步推理能力 , 可以系統地將短上下文推理模型適應長上下文場景 。
他們的方法包括三個關鍵組成部分:
首先 , 預熱監督微調 (SFT) 階段 , 用于建立強大的初始策略;
其次 , 課程指導的分階段強化學習技術 , 在訓練階段逐步增加上下文長度以穩定優化;
第三 , 采用難度感知的回顧性抽樣策略 , 優先考慮具有挑戰性的樣本 , 以鼓勵策略探索 。 他們還實施了混合獎勵機制 , 將基于規則的驗證與 LLM 作為評判者的評估相結合 , 以平衡準確率和召回率 。
主要發現是什么?
QWENLONG-L1 在七個長上下文推理基準中的總體結果
QwenLong-L1 在七個長上下文文檔問答基準測試中取得了領先的性能 , 其中 32B 模型的表現超過OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗艦模型 , 甚至與 Claude-3.7-Sonnet-Thinking 的性能相當 。 研究表明 , 漸進式上下文縮放可以在訓練過程中實現更高的熵并穩定 KL 散度 , 而強化學習則自然地培養了專門的長上下文推理行為 , 例如基礎推理、子目標設定、回溯和驗證 , 從而提升了最終性能 。
為什么這很重要?這使得 LRM 在需要大量上下文處理的實際應用中具有實用價值 。 這項研究為長上下文推理強化學習提供了首個系統性框架 , 解決了訓練效率和優化穩定性方面的關鍵挑戰 。 這一進展為人工智能系統打開了大門 , 使其能夠進行自動化科學研究、分析長視頻 , 以及處理復雜的信息密集型任務 , 這些任務需要上下文基礎和對海量信息進行復雜的推理 。
【通義發布QwenLong-L1, 長上下文大型推理模型, 強在哪里?】\u0002\u0002\u0002\u0002\u0002
推薦閱讀
- 發布已七年,老將Core i3-9100還能再戰嗎?游戲測試出爐
- 真我發布3款新品,售價129元到2699元,你想入手哪一款?
- 紅米 K80 至尊版曝光,下月發布
- 真我Neo7 Turbo已正式發布:對比一加Ace5競速版,誰更值得選?
- 以創新重塑中端機!榮耀400系列發布,CE0李健定調未來
- 榮耀400系列發布,全維度升級,輕旗艦定位冠絕同檔
- 國補后1529元起售!一加發布兩款重磅新機,平民黨可“閉眼入”!
- 輕旗艦榮耀400系列發布,冠絕檔位之作重構市場格局
- KaOS 2025.05版本發布:全面擁抱Qt6,徹底告別Qt5
- 2124元,榮耀400正式發布:7200mAh+2億像素+IP69防水
