AAAI 2026 Oral|LENS:基于統一強化推理的分割大模型

AAAI 2026 Oral|LENS:基于統一強化推理的分割大模型

文章圖片

AAAI 2026 Oral|LENS:基于統一強化推理的分割大模型

文章圖片

AAAI 2026 Oral|LENS:基于統一強化推理的分割大模型

文章圖片

AAAI 2026 Oral|LENS:基于統一強化推理的分割大模型

文章圖片

AAAI 2026 Oral|LENS:基于統一強化推理的分割大模型

文章圖片

AAAI 2026 Oral|LENS:基于統一強化推理的分割大模型

文章圖片



文本提示圖像分割(Text-prompted image segmentation)是實現精細化視覺理解的關鍵技術 , 在人機交互、具身智能及機器人等前沿領域具有重大的戰略意義 。 這項技術使機器能夠根據自然語言指令 , 在復雜的視覺場景中定位并分割出任意目標 。
【AAAI 2026 Oral|LENS:基于統一強化推理的分割大模型】然而 , 當前主流的技術路徑 , 如基于監督式微調(Supervised Fine-Tuning SFT)的方法 , 正面臨著根本性的瓶頸 。 這些方法本質上是靜態的模式匹配 , 雖然在特定數據集上表現優異 , 但其泛化能力往往受限 , 形成了一個難以逾越的 “能力天花板” 。 尤其是在處理需要多步、復雜推理的未知指令時 , 性能會顯著下降 , 其根源在于 SFT 方法在訓練中忽略了動態的、顯式的推理過程 。
為了 shatter 這一能力天花板 , 我們引入了 LENS(Learning to Segment Anything with Unified Reinforced Reasoning)框架 。 LENS 摒棄了靜態的 SFT , 轉而采用端到端的強化學習(Reinforcement Learning RL)機制 , 將高層次的 “思考” 過程(即思維鏈推理)與像素級的 “執行” 過程(即圖像分割)進行動態的聯合優化 。 通過這種設計 , LENS 旨在賦予分割模型真正的、上下文感知的推理能力 , 從而在根本上提升其在復雜任務中的魯棒性和泛化性 。
本文將深入介紹一下我們 AAAI 榮獲 Oral 的工作 , “會思考的分割大模型 LENS” 。 有幸在這次 AAAI 2026 得到了審稿人們一致正面的評價 , 并被 AC 和 PC 一致同意推薦為 Oral 論文 。

論文標題:LENS: Learning to Segment Anything with Unified Reinforced Reasoning 論文鏈接:https://arxiv.org/abs/2508.14153 代碼鏈接:https://github.com/hustvl/LENSLENS 框架概覽:推理與分割的協同進化
在這個工作中 , 我們研究了分割大模型領域的一大一小兩個關鍵問題 , 大問題就是老生常談的 “泛化能力” , 傳統分割大模型對未見過的提示和領域的泛化能力往往有限;小問題則是隱藏的 “信息瓶頸” , 此前的分割大模型從 “大腦思考”(MLLM)到 “分割解碼”(SAM)之間往往只通過單一的分割 Token 傳遞信息 , 存在隱形的 “信息輸送瓶頸” 。

LENS 框架的核心設計在于通過端到端的聯合優化 , 徹底打破傳統模型中 “思考”(推理)與 “執行”(分割)之間的信息壁壘 。
以往的方法 , 例如同期的優秀工作 Seg-Zero , 采用的是非端到端的設計 , 即先由推理模型生成邊界框和點提示 , 再交由現成的(off-the-shelf)SAM 進行分割 。 這種分離式流程的主要缺陷在于誤差的單向傳播 。 這意味著像 Seg-Zero 這樣的非端到端模型是根本上脆弱的;它們的性能上限被其初始猜測的準確性所鎖定 。 一旦推理階段的定位出現偏差 , 下游的分割模型將無法糾正 , 最終必然導致分割失敗 。 相比之下 , LENS 通過其端到端的反饋閉環 , 具備了即便從不完美的初步定位中也能自我糾正的能力 。

LENS 的整體架構由三大核心組件構成 , 它們協同工作 , 實現了從高級語義理解到精確像素輸出的無縫銜接:
多模態大語言模型 (MLLM) - 推理核心:作為系統的 “大腦” , LENS 采用先進的 MLLM(如 Qwen2.5-VL-3B-Instruct)來處理輸入的圖像和文本指令 。 它負責生成詳盡的思維鏈(Chain-of-Thought CoT)推理過程 , 并給出一個初步的目標邊界框 。 這一過程不僅是定位 , 更是對指令的深度理解 。

上下文模塊 (Context Module) - 信息橋梁:這是 LENS 的關鍵創新 , 它充當了 MLLM 和分割模型之間的信息高速公路 。 該模塊由一組可學習的上下文查詢(Context Queries)和一個連接器(Connector)組成 , 其任務是將 MLLM 生成的豐富推理軌跡和定位信息 , 轉化為分割模型能夠高效利用的、信息密集的分割提示

分割模型 (SAM-2) - 像素解碼器:作為系統的 “雙手” , LENS 采用高性能的分割模型(SAM2-Large) 。 它接收來自上下文模塊的復雜指令 , 并結合原始圖像信息 , 執行精準的像素級掩碼生成任務 , 將推理結果精確地體現在圖像上 。
通過這種 “推理 - 橋接 - 分割” 三位一體的緊密耦合架構 , LENS 實現了推理質量和分割精度的同步提升 。 這種設計使得最終的分割性能可以直接反作用于推理過程的優化 , 形成一個完整的閉環 , 為實現更高水平的通用分割能力奠定了基礎 。
LENS 框架同時在 “思考推理” 端也做出了改進 , 我們基于 Group Relative Policy Optimization(GRPO)方法構建了統一強化學習獎勵機制(Unified Rewards Scheme) 。 該獎勵機制是多維度的 , 同時監督以下三個層級的線索:
格式獎勵(Format Reward):確保 MLLM 的輸出(包括推理過程和定位結果)遵循預期的結構和格式一致性 。邊界框 IoU 獎勵(Box IoU Reward):衡量預測邊界框與真實邊界框之間的定位準確性 。分割掩碼 IoU 獎勵(Segment IoU Reward):評估像素級分割掩碼的質量 。
通過我們提出的聯合優化(將統一的 GRPO 目標與監督分割損失相結合) , LENS 能夠從獎勵驅動的推理改進和直接的分割監督中同時受益 。 值得一提的是 , LENS 的端到端特性解決了定位錯誤(Grounding Error)向下游傳播的問題 , 如上圖右一右二所示 , 哪怕有些情況定位框是錯的 , 強大的上下文查詢(Context Query)也能帶領分割模型走向正確 。
性能評估與分析

核心結果方面 , LENS 取得了文本提示分割任務的最先進性能(SoTA):LENS 在 RefCOCO 系列的基準測試中取得了 81.2% 的平均 cIoU , 達到了世界最高水平 。 在 GroundingSuite-Eval 這類更具挑戰性的零樣本基準測試中 , LENS 展現出卓越的域外泛化能力 , cIoU 達到 78.3% , 超越第二優方法接近 10% 。

這些成果表明 , LENS 這一類基于統一強化學習獎勵驅動的 CoT 推理方法 , 能夠顯著提升文本提示下的分割能力 。 我們相信 , LENS 為強化學習與視覺分割的無縫集成提供了新的思路 , 并有望推動更通用、更穩健的視覺 - 語言系統的研究 。 代碼和預訓練權重已開源(https://github.com/hustvl/LENS) , 感興趣的朋友們歡迎研究和使用 。 我們也期待在 AAAI 2026 與學術界同行進行深入交流 。

    推薦閱讀