通義發布QwenLong-L1, 長上下文大型推理模型, 強在哪里？_人工智能|算法

文章圖片

文章圖片

文章圖片

為了解決大型推理模型如何將 LRM 擴展至通過強化學習有效地處理和推理長上下文輸入的難題，通義智文提出了 QwenLong-L1 框架，該框架通過漸進式上下文擴展將短上下文 LRM 適配到長上下文場景。具體而言，就是利用預熱監督微調 (SFT) 階段建立穩健的初始策略，然后采用課程引導的分階段強化學習技術來穩定策略演化，并采用難度感知的回顧性采樣策略來激勵策略探索。

首先需要知道，它解決了什么問題？雖然最近的大型推理模型 (LRM)（例如 OpenAI 的 o1）通過強化學習展現出了令人印象深刻的推理能力，但這些改進僅限于短上下文任務（約 4K 個 token）。

短上下文和長上下文推理 RL 的訓練動態比較

長上下文推理強化學習面臨兩大關鍵挑戰：訓練效率不理想，由于熵值降低較多導致獎勵得分提升較慢；優化過程不穩定，由于較長輸出的方差較大，導致 KL 散度波動較大。
挑戰在于，如何擴展這些模型以處理長上下文輸入（超過 12 萬個 token）同時保持強大的推理能力仍未得到解決。這對于需要處理大量文檔、進行深入研究或處理信息密集型環境的實際應用尤其成問題，因為在這些環境中，模型既需要從長上下文中檢索相關信息，又需要執行多步推理。

它是如何解決這個問題的？QWENLONG-L1 整體架構，這是一個新穎的長上下文推理強化學習訓練框架
QwenLong-L1 是一個漸進式上下文擴展框架，該框架集成了群體相關強化學習算法、混合獎勵機制和漸進式上下文擴展策略，能夠穩定地從短上下文到長上下文的 LRM 進行自適應，并具備強大的上下文基礎和多步推理能力，可以系統地將短上下文推理模型適應長上下文場景。
他們的方法包括三個關鍵組成部分：
首先，預熱監督微調 (SFT) 階段，用于建立強大的初始策略；
其次，課程指導的分階段強化學習技術，在訓練階段逐步增加上下文長度以穩定優化；
第三，采用難度感知的回顧性抽樣策略，優先考慮具有挑戰性的樣本，以鼓勵策略探索。他們還實施了混合獎勵機制，將基于規則的驗證與 LLM 作為評判者的評估相結合，以平衡準確率和召回率。
主要發現是什么？

QWENLONG-L1 在七個長上下文推理基準中的總體結果
QwenLong-L1 在七個長上下文文檔問答基準測試中取得了領先的性能，其中 32B 模型的表現超過OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗艦模型，甚至與 Claude-3.7-Sonnet-Thinking 的性能相當。研究表明，漸進式上下文縮放可以在訓練過程中實現更高的熵并穩定 KL 散度，而強化學習則自然地培養了專門的長上下文推理行為，例如基礎推理、子目標設定、回溯和驗證，從而提升了最終性能。
為什么這很重要？這使得 LRM 在需要大量上下文處理的實際應用中具有實用價值。這項研究為長上下文推理強化學習提供了首個系統性框架，解決了訓練效率和優化穩定性方面的關鍵挑戰。這一進展為人工智能系統打開了大門，使其能夠進行自動化科學研究、分析長視頻，以及處理復雜的信息密集型任務，這些任務需要上下文基礎和對海量信息進行復雜的推理。
【通義發布QwenLong-L1, 長上下文大型推理模型, 強在哪里？】\u0002\u0002\u0002\u0002\u0002

通義發布QwenLong-L1, 長上下文大型推理模型, 強在哪里？

推薦閱讀

梔子花有什么顏色

宮保雞丁怎么炒

金屬氧化性順序表金屬離子氧化性順序表

廣東廣西的廣是指廣東廣西的廣是指什么

爐石傳說擎旗奔行者怎么樣爐石擎旗奔行者效果一覽

沖雞是好是壞

夢見女鬼對我笑夢見女鬼對我笑是什么意思

過了三伏適合游泳嗎

席地而坐簡筆畫步驟席地而坐簡筆畫畫法

陳醋雞腳的正確方法

榆次御?Z房價,太原榆次房價漲了還是跌了

外媒評測iPhone,iphone xs評測

牛肉怎么醬出來的

長沙民政職業技術學院官網，了解長沙航空職業技術學院請進

讀《濫竽充數》有感濫竽充數讀后感

breadnbutter,面包黃油是什么顏色