ReLaX從隱空間動力學出發重新解讀大模型RL的探索-利用平衡

ReLaX從隱空間動力學出發重新解讀大模型RL的探索-利用平衡

文章圖片

ReLaX從隱空間動力學出發重新解讀大模型RL的探索-利用平衡

文章圖片

ReLaX從隱空間動力學出發重新解讀大模型RL的探索-利用平衡

文章圖片

ReLaX從隱空間動力學出發重新解讀大模型RL的探索-利用平衡

文章圖片




強化學習正逐漸成為大模型能力躍遷的核心驅動力 。 從 OpenAI o3、DeepSeek-R1 到 Gemini 3 , 一系列前沿模型通過強化微調不斷突破復雜推理任務的性能上限 。 然而 , 在這些進展背后 , 一個隱性的問題正逐漸顯現:隨著訓練推進 , 策略分布持續收縮 , 探索能力在模式坍塌中不斷衰減 , 最終陷入優化的欠收斂與性能瓶頸 。


這一現象本質上源于強化學習中的探索–利用(exploration-exploitation)失衡 , 而在 RLVR(可驗證獎勵強化學習)范式下 , 稀疏獎勵進一步放大了這一問題 。


過去一年 , 大量工作試圖從表層 token 入手 , 通過提升輸出分布的熵來維持多樣性 。 但這一思路忽略了一個更根本的事實:Token 只是模型內部隱層狀態在解碼過程中的壓縮表達 , 不可避免地丟失了部分計算信息 , 而非推理本身 。 當調控停留在輸出層時 , 真正承載推理過程的這一 “計算空間” 幾乎未被觸及 。 與此同時 , 在當前主流多模態模型(如 Qwen-VL)中 , 盡管 CoT 以文本形式呈現 , 其跨模態推理過程卻發生在隱空間之中 , 進一步放大了這種 “表達–計算” 的錯位 。


于是 , 一個更關鍵的問題浮現出來:僅通過提升 token 多樣性 , 真的能夠從本質上改善模型的探索能力嗎?抑或 , 探索–利用的本質 , 其實蘊含在模型的內部計算過程之中?


港理工&上海 AI Lab 的研究人員進一步將問題 “向內推進” , 把目光從輸出層轉向模型的內部計算 。 他們發現 , 大模型的推理過程并不是簡單的序列生成 , 而可以從動力學的視角來理解:其本質是隱層狀態在高維空間中的連續演化 , 這一過程承載了模型內部的計算邏輯 。


基于這一洞察 , 研究團隊提出了 ReLaX(Reasoning with Latent eXploration) 框架:不再直接干預 token 生成的多樣性 , 而是在策略優化過程中顯式調控模型的隱空間動力學結構 , 從而在更底層實現對探索與利用的平衡 。





  • 論文鏈接:https://arxiv.org/abs/2512.07558
  • 開源權重:https://huggingface.co/collections/SteveZ25/relax-checkpoints
  • Github: https://github.com/ZhangShimin1/ReLaX


ReLaX 核心方法解讀





1?? 隱空間探索:從隨機擾動到真實探索


大模型的推理 , 并不是單純的 token 輸出 , 而是隱層狀態在高維空間里的連續演化 。 ReLaX 將這套隱層演化看作一個 “隨機動力學系統”:模型內部狀態會隨著推理逐步變化 , 而采樣溫度、top-p、top-k 等隨機擾動則像水流中掀起的漣漪 , 推動隱層狀態偏離原軌跡 。


僅僅在輸出層制造、放大 token 生成的隨機性 , 往往無法真正解鎖模型內部探索潛力 , 關鍵是:只有當模型的內部動力學模式足夠豐富 , 這些微小擾動才能被放大成多樣的 latent 軌跡 , 從而產生有效探索 。


2?? 動態譜散度(DSD):量化隱空間動力學模式的多樣性


然而 , 核心難題在于:如何捕捉大模型內部高維、復雜的非線性動力學?傳統控制理論提供了一把利器 ——Koopman 算子(Koopman Operator) , 它允許我們在特定函數空間中 , 用線性的視角去觀測和分析非線性系統的演化 。


在這一框架下 , ReLaX 引入前沿方法 ResKoopNet , 通過 MLP 學習出一個理想的 Koopman dictionary , 將大模型最后一層隱藏狀態的復雜演化映射到一個可解析的線性空間中 。 換句話說 , 它將大模型隱層中如 “黑盒” 般混沌的推理軌跡 , 化繁為簡 , 轉化為可分析的譜特征 。 基于該譜空間 , 研究者提出了動態譜散度(DSD)指標 。 它通過計算單條軌跡內部動態譜模長的方差 , 精準量化了模型隱空間動力學結構的 “異質性” 。 這些模長深度揭示了增長(growth)、衰減(decay)與振蕩(oscillation)等動力學模式的核心特質 。 DSD 越高 , 意味著大模型在推理過程中內部動力學模式越豐富 , 從而在 latent 空間中更有潛力探索多樣化、創新性的解題路徑 。


簡而言之 , DSD 是對大模型內部 “思維多樣性” 的量化:它不僅反映了內部計算的復雜性 , 也為探索-利用的策略優化提供了明確方向 。


3?? DSD 引導下的策略優化:讓探索更有方向


有了 DSD , 我們終于有了量化大模型隱空間探索能力的 “羅盤” 。 ReLaX 將基于這一指標設計的序列級正則化項融入經典算法 GRPO , 不僅告訴模型哪些軌跡值得關注 , 還指導它如何在探索與利用之間取得平衡 。


具體來說 , ReLaX 設計了兩條關鍵機制:


  • 優勢塑形(Advantage Shaping):正則項與正向優勢值綁定 , 只在帶來正向收益的軌跡上提升隱空間的靈活度 。 這意味著模型不會盲目探索無用路徑 , 而是把計算能力集中在高潛力軌跡上 , 避免無意義的模式漂移(semantic drift) 。
  • 自適應 KL 正則(Adaptive KL Regularization): 對 DSD 超閾值的軌跡施加懲罰 , 以約束過度發散的動態譜 , 保證訓練穩定性;同時對有潛質的軌跡保留充足探索空間 , 讓模型在安全范圍內大膽嘗試 。


最終 , ReLaX 不只是簡單增加探索 , 它通過對隱空間動力學進行調控 , 形成一個動態平衡的優化目標:在保證訓練穩定的前提下 , 讓大模型的隱層計算自由伸展 , 持續發掘更豐富的內在推理路徑 。


實驗結果:打破 RLVR 性能瓶頸 , 持續激發大模型推理潛能


告別多樣性束縛下的 “次優收斂”


作者在純文本大模型(LLM)和多模態視覺-語言大模型(VLM)上驗證了 ReLaX 的效果 , 并與 GRPO 在 3B/7B 規模下的訓練進行了對比 。 通過訓練過程中模型性能與 token 熵的關系圖 , 可以直觀觀察到模型是否陷入多樣性不足導致的性能瓶頸 。



ReLaX(紅)對比 GRPO(灰):3B/7B 規模 (a) 純文本大模型(LLMs)與 (b) 多模態視覺-語言大模型(VLMs)在訓練過程中性能與 token 熵的關系 , 散點表示各訓練步驟 。


在 GRPO(灰色曲線)下 , 訓練初期模型探索充分 , 性能穩步提升;但隨著訓練推進 , 策略熵迅速下降 , 模型很快陷入次優收斂 —— 就像學生過早認定唯一解題思路 , 從此不再嘗試其他可能性 。


相比之下 , ReLaX(紅色曲線)在整個訓練過程中不僅保持性能持續上升 , 同時策略熵穩定在合理區間 , 避免模式坍塌 。 這意味著 ReLaX 能在促進探索的同時 , 也順應 RL 對模型分布銳化以利用高價值信號的天然趨勢 。


刷新多模態推理基準新 SOTA


以 Qwen2.5-VL-Instruct 系列為基礎模型 , ReLaX 在多模態推理任務上展現出顯著優勢:其 7B 規模模型在 MathVista、MathVerse、MathVision、MMMU、MMStar、DynaMath 與 EMMA 七大基準上取得 53.2% 的 mean@1 平均準確率 , 刷新同尺度模型性能上限 。 與此同時 , 3B 規模的 ReLaX-VL-3B 也展現出強勁競爭力 , 其性能已可比甚至超越部分已有的 7B 級推理模型 。





從 Token 到 Latent:推理與泛化能力的雙重提升


純文本數學推理:作為 RLVR 的核心應用場景 , 數學推理一直是檢驗方法有效性的 “主戰場” 。 作者以 Qwen2.5-base 與 Qwen2.5-Math 為基礎模型 , 將 ReLax 與多種基于 token 多樣性的方法進行了系統對比 。





實驗結果顯示 , 在 Math500、Minerva、AMC22/23、AIME24/25 等六大數學推理基準上 , ReLaX 在相同訓練設置下的平均性能穩定超越基于 token 多樣性的方法 。 這一結果表明 , 相比直接干預輸出層多樣性 , 從 latent 動力學出發調控模型探索與利用 , 能夠更高效地提升模型的推理能力 。





進一步地 , 作者將 ReLaX 擴展至 Llama3.2-Instruct 與 Qwen3-base 等不同模型架構上 , 依然取得一致性能提升 , 驗證了該方法良好的可擴展性與跨模型泛化能力 。


多模態推理泛化:研究團隊進一步在多模態視覺-語言大模型上驗證了 latent 層面探索相對 token 層面探索的優勢 。 具體而言 , 以 Qwen2.5-VL-3B 為基礎模型 , 在多個多模態推理基準上 , 將 ReLaX 與兩類代表性的 token-level 方法進行對比:一類是直接將提升熵引入策略優化目標的 Entropy-Reg , 另一類是通過協方差約束間接調控 token 熵的 KL-Cov 。





實驗結果給出了一個清晰的結論:ReLaX 在多模態推理任務上穩定優于兩類 token-level 方法 。


具體來看 , Entropy-Reg 并未帶來多模態推理能力的提升 。 相反 , 由于其在 token 層面顯式鼓勵不確定性 , 這種 “無約束” 的探索容易引入語義漂移 , 在多個基準上甚至劣于原始 GRPO , 表現出明顯的副作用 。


相比之下 , KL-Cov 雖然帶來一定增益 , 但其效果具有明顯局限性:在 MathVista 等偏數學、幾何的任務上表現相對更好 —— 這些任務對視覺信息依賴較弱;而在更依賴視覺理解的任務(如 EMMA-Physics)中 , ReLaX 的優勢顯著擴大(+7.7) 。


這一現象揭示了關鍵問題:僅在輸出層面促進探索 , 難以有效影響多模態模型內部的跨模態計算過程 。token-level 方法對 latent 空間的作用有限 , 因此在需要深度視覺-文本融合的任務中難以泛化 。


相比之下 , ReLaX 直接作用于隱空間動力學 , 通過調控模型內部計算的靈活性 , 更有效地激活跨模態信息交互 , 從而顯著提升對多模態輸入的理解能力 。 論文中的 qualitative case study 也進一步驗證了這一點 。


未來展望:走向大模型內在機制的 “深水區”


ReLaX 的意義并不止于性能提升 , 它更重要的價值在于提供了一種全新的視角去理解大模型推理過程中的計算本質 。


  • 相比直接 “擾動” token 空間的概率 , 引導模型在隱空間中的動態演化 , 是解決 “探索–利用” 權衡的一種更具原則性的路徑 。 未來 , 我們對模型探索能力的理解 , 將不再局限于輸出層的不確定性 。
  • 大模型的隱空間作為一片尚未被充分探索的 “藍?!?, 正逐漸顯現出其作為研究前沿的核心價值 。 其中高維狀態所承載的豐富信息 , 刻畫了隱藏在表層文本輸出下的內在計算過程 , 為我們理解模型行為并提升其能力提供了新的切入點 。


【ReLaX從隱空間動力學出發重新解讀大模型RL的探索-利用平衡】ReLaX 只是一個起點 。 隨著我們不斷深入這一 “隱空間” , 大模型或許將不再只是概率預測的工具 , 而是能夠在其豐富的內部表征中進行持續探索、自我修正 , 逐步演化出更接近 “認知過程” 的推理能力 。

    推薦閱讀