AdaResoner實現Agentic Vision的主動「視覺工具思考」

AdaResoner實現Agentic Vision的主動「視覺工具思考」

文章圖片

AdaResoner實現Agentic Vision的主動「視覺工具思考」

文章圖片

AdaResoner實現Agentic Vision的主動「視覺工具思考」

文章圖片

AdaResoner實現Agentic Vision的主動「視覺工具思考」

文章圖片

AdaResoner實現Agentic Vision的主動「視覺工具思考」

文章圖片

AdaResoner實現Agentic Vision的主動「視覺工具思考」

文章圖片

AdaResoner實現Agentic Vision的主動「視覺工具思考」

文章圖片

AdaResoner實現Agentic Vision的主動「視覺工具思考」


你見過 7B 模型在拼圖推理上干翻 GPT-5 嗎?
不是靠堆參數 , 不是靠更大的數據 , 而是靠一件事:學會「什么時候該用工具」 。
大多數「工具增強」模型是這樣的:遇到任務 X → 調用固定工具 Y → 祈禱結果正確 。 一旦場景稍微變化 , 模型就開始抽風——不知道什么工具該用、什么工具不該用 。
AdaReasoner 解決的是更本質的問題:把 what / when / how(用什么、何時用、怎么用)當成推理能力來學 。

論文標題:AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning 論文(arXiv):https://arxiv.org/abs/2601.18631 項目主頁:https://adareasoner.github.io 代碼:https://github.com/ssmisya/AdaReasoner 模型與數據:https://huggingface.co/collections/hitsmy/adareasoner 視頻(YouTube):https://www.youtube.com/watch?v=_SOyD-lomOM先看 10 秒效果:
https://mp.weixin.qq.com/s/WH8kXeIsh97T7WjO0m2xRA
AdaReasoner 工作流程示意
Google 近期宣布 , 為其輕量級模型 Gemini 3 Flash 引入一項名為「Agentic Vision」(代理視覺)的新能力 。
這項更新標志著多模態 AI 處理圖像的方式發生了根本性轉變:從傳統的靜態識別 , 升級為具備「思考、行動、觀察」循環的主動調查模式 。
在此之前 , 包括 GPT 在內的大多數前沿多模態模型處理圖像的方式類似于人類的「匆匆一瞥」:模型接收圖像 , 進行一次性處理并輸出結果 。 這種方式在面對需要細致觀察的任務時 , 往往會因為細節丟失而產生幻覺或猜測 。
Agentic Vision 的工作機制:Gemini 3 Flash 現在能夠像人類調查員一樣通過以下循環進行推理:
思考(Think)——分析用戶指令和圖像初步內容 , 制定調查計劃 。 行動(Act)——自動生成并執行 Python 代碼來操作圖像 。 例如 , 對圖像進行縮放、裁剪特定區域、旋轉視角或繪制輔助線 。 觀察(Observe)——檢查代碼執行后的新視圖或數據 , 獲取更精確的視覺證據 。上述過程可以多次迭代 , 直到模型收集到足夠的確鑿證據來回答問題 。
有意思的是:AdaReasoner 與 Agentic Vision 殊途同歸 。 AdaReasoner 同樣實現并驗證了幾乎相同的范式:

工業界與學術界同時押注「主動工具使用」 , 說明這個方向正在成為多模態推理的主流范式 。
AdaReasoner 的獨特價值在于:我們不只是驗證了這套范式有效 , 更提出了一套讓開源小模型也能習得這種能力的訓練方法——這正是接下來要詳細介紹的內容 。
01 痛點:多模態推理為什么
總是「看起來很會 , 細節就開始猜」?
在多模態推理里 , 「看清細節」和「多步推理」經?;ハ嗫ú弊樱?br /> 感知不夠精確 → 證據不足 → 推理再漂亮也容易變成「guided guessing」;
反過來 , 如果能把關鍵證據用工具查出來、畫出來、驗證出來 , 模型就能把算力用在判斷與規劃上 。
換句話說:工具不是外掛 , 而是把推理從「猜」拉回「查」的關鍵路徑 。
02 一句話介紹 AdaReasoner:
把工具使用當成「通用推理技能」
AdaReasoner 是一個訓練范式:讓模型不僅會「調用工具」 , 更會做三類決策:
選擇:該用哪個工具?要不要組合多個工具? 時機:什么時候該用?什么時候不該用? 魯棒性:工具失敗/無用怎么辦?是否回退、是否換策略?
AdaReasoner 把「工具使用」當成推理技能來學習:會采納有用工具、丟棄無關工具 , 并按任務調節調用頻率 。
03 三個關鍵設計:
讓「會用工具」從口號變成能力
3.1 Tool Cold Start (TC):把「犯錯-修正」寫進數據里
我們不是只給模型看「完美路徑」 , 而是刻意加入兩類真實世界會發生的場景:
反思與回溯:試一下 → 檢查 → 不對就撤回/換方案 。 工具失敗處理:工具返回錯誤/無效 → 及時止損 → 回退到模型自身能力 。
定性案例:多輪工具規劃 + 反思糾錯 + 組合工具完成復雜視覺推理
3.2 Tool-GRPO (TG):優化「多輪工具編排」 , 而不是單次調用
多模態工具推理往往不是「一次調用結束」 , 而是多回合:
觀察 → 調用 → 再觀察 → 再調用 → 最終回答 。
Tool-GRPO 針對 multi-turn 場景做了專門的強化學習優化 , 并用自適應獎勵把工具使用變成「不確定時的可靠后備」 , 而不是強制流程 。
3.3 Adaptive Learning (ADL):逼模型學「語義」 , 別背「名字」
為了避免模型死記硬背某個工具名(比如看到 \"Point\" 就條件反射) , 我們做了兩件事:
工具名/參數名隨機化(去掉字面提示) 。 工具描述改寫(同一語義、多種表達) 。
隨機化訓練的直觀示意

AdaReasoner 框架總覽:Tool Cold Start → Tool-GRPO → Adaptive Learning
04 最硬的證據:
小模型為什么能「跨級打怪」?
先給結論:AdaReasoner-7B 相對 base 模型在多個基準上實現顯著提升(在選取的 8 個 benchmark 上平均 +24.9%) , 并在結構化推理任務上接近滿分 。

主實驗結果:在 VSP、Jigsaw、GUIQA 等任務上顯著提升 。
更重要的是:不是「工具越多越好」 , 而是訓練配方決定工具是否真的幫得上忙 。
例如在單任務設置下:
VSP: Base 28.09 → TC 64.91 → TG 73.18 → TC+TG 97.64 Jigsaw: Base 45.70 → TC 84.20 → TC+TG 96.60(超過 GPT-5 的 80.10)
瓶頸遷移示意:當工具規劃足夠好 , 性能瓶頸從「模型規?!共糠诌w移到「工具效用與工具規劃能力」
05 最有意思的部分:模型真的
學出了「三種自適應工具行為」
這部分是 AdaReasoner 最像「智能體」的地方:我們沒有寫規則讓它這么做 , 但它在 RL 過程中學會了 。
行為 1:會「采納」有用的新工具(Adopt)
把 A* 規劃工具放進強化學習階段(Cold Start 沒見過) , 模型會逐步提高調用頻率并穩定掌握:
VSP Navigation 從 44.83 → 96.33

Navigation 任務示意

A* 工具調用頻率隨 RL 訓練演化
行為 2:會「丟棄」無關工具(Discard)
更關鍵的是:A* 對 Verify 任務沒用 , 甚至是干擾項 。
在「只在推理時提供 A*」的設置里 , Verify 會出現 94.20 → 80.00 的下降 。
而在 RL 訓練后 , 模型會逐步壓制無關調用 , 讓 Verify 維持在接近滿分(99.20) 。
一句話:它不僅會用工具 , 還會學會「別亂用」 。
行為 3:會「調節」調用頻率(Modulate)
工具也不是開/關二選一 。 模型會根據子任務「調頻」:
Point 工具在導航更關鍵(~3.2 calls/sample) , 在驗證更克制(~1.0 call/sample)

Point 工具調用頻率「調頻」:Navigation 中更關鍵 , Verification 中更克制
06 換工具說明書
也能用:泛化與穩健性
現實里最常見的崩潰方式是:工具定義、參數名、描述文案一變 , 模型就「不會用了」 。
AdaReasoner 用 ADL(隨機化 + 改寫)把「工具規劃」從文本表面形式里解耦出來 。
一個很直觀的證據來自工具使用統計:
在 Jigsaw 上達到 3.54 CPS 且工具執行成功率 98.50% , 最終準確率 88.60 。 在 VStar 這種更開放的 VQA 上仍能主動調用工具(1.47 CPS)并取得 70.68 。
工具使用統計(CPS、成功率)與性能
此外 , 使用 ADL , 模型能夠更容易在新的任務上取得更好的表現 。 我們僅使用 Jigsaw 這一個任務的 SFT 數據 , 在三個任務上 RL , 可以看到 , 使用 ADL 的版本能夠在另外兩個任務上給模型帶來效果上的提升 。

ADL 能將單個任務上學來的 agent planning 能力遷移到 SFT 沒見過的任務上 。
07 我們想強調的
學術結論(Takeaways)
多模態推理不只是 「think harder」 。 更關鍵的是:
actively seeing verifying and planning with tools.
當工具編排學得足夠好 , 瓶頸會發生遷移:
model scale → tool utility + tool planning
【AdaResoner實現Agentic Vision的主動「視覺工具思考」】這對小模型尤其重要:參數有限時 , 「會用工具」就是最直接的能力放大器 。
從 Agentic Vision 看趨勢:Google 用 Agentic Vision 把 Think-Act-Observe 內置到 Gemini , 學術界用 AdaReasoner 驗證這套范式在開源模型上的可行性——兩條路線同時驗證了「主動工具使用」的價值 。 對于希望在自己數據/場景上復現這種能力的研究者和開發者 , AdaReasoner 提供了一套完整的開源方案 。
Adaptive Learning 對提升模型的泛化性也有很大幫助 , 可以幫助將 agent planning 能力遷移到以前沒見過的 agent 和新的任務上去 。

    推薦閱讀