AdaResoner實現Agentic Vision的主動「視覺工具思考」

2026-04-10 人工智能大數據互聯網 ai 本·拉登

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

你見過 7B 模型在拼圖推理上干翻 GPT-5 嗎？
不是靠堆參數，不是靠更大的數據，而是靠一件事：學會「什么時候該用工具」。
大多數「工具增強」模型是這樣的：遇到任務 X → 調用固定工具 Y → 祈禱結果正確。一旦場景稍微變化，模型就開始抽風——不知道什么工具該用、什么工具不該用。
AdaReasoner 解決的是更本質的問題：把 what / when / how（用什么、何時用、怎么用）當成推理能力來學。

論文標題：AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning 論文（arXiv）:https://arxiv.org/abs/2601.18631 項目主頁:https://adareasoner.github.io 代碼:https://github.com/ssmisya/AdaReasoner 模型與數據:https://huggingface.co/collections/hitsmy/adareasoner 視頻（YouTube）:https://www.youtube.com/watch?v=_SOyD-lomOM先看 10 秒效果：
https://mp.weixin.qq.com/s/WH8kXeIsh97T7WjO0m2xRA
AdaReasoner 工作流程示意
Google 近期宣布，為其輕量級模型 Gemini 3 Flash 引入一項名為「Agentic Vision」（代理視覺）的新能力。
這項更新標志著多模態 AI 處理圖像的方式發生了根本性轉變：從傳統的靜態識別，升級為具備「思考、行動、觀察」循環的主動調查模式。
在此之前，包括 GPT 在內的大多數前沿多模態模型處理圖像的方式類似于人類的「匆匆一瞥」：模型接收圖像，進行一次性處理并輸出結果。這種方式在面對需要細致觀察的任務時，往往會因為細節丟失而產生幻覺或猜測。
Agentic Vision 的工作機制：Gemini 3 Flash 現在能夠像人類調查員一樣通過以下循環進行推理：
思考（Think）——分析用戶指令和圖像初步內容，制定調查計劃。行動（Act）——自動生成并執行 Python 代碼來操作圖像。例如，對圖像進行縮放、裁剪特定區域、旋轉視角或繪制輔助線。觀察（Observe）——檢查代碼執行后的新視圖或數據，獲取更精確的視覺證據。上述過程可以多次迭代，直到模型收集到足夠的確鑿證據來回答問題。
有意思的是：AdaReasoner 與 Agentic Vision 殊途同歸。 AdaReasoner 同樣實現并驗證了幾乎相同的范式：

工業界與學術界同時押注「主動工具使用」，說明這個方向正在成為多模態推理的主流范式。
AdaReasoner 的獨特價值在于：我們不只是驗證了這套范式有效，更提出了一套讓開源小模型也能習得這種能力的訓練方法——這正是接下來要詳細介紹的內容。
01 痛點：多模態推理為什么
總是「看起來很會，細節就開始猜」？
在多模態推理里，「看清細節」和「多步推理」經?；ハ嗫ú弊樱?br /> 感知不夠精確 → 證據不足 → 推理再漂亮也容易變成「guided guessing」；
反過來，如果能把關鍵證據用工具查出來、畫出來、驗證出來，模型就能把算力用在判斷與規劃上。
換句話說：工具不是外掛，而是把推理從「猜」拉回「查」的關鍵路徑。
02 一句話介紹 AdaReasoner：
把工具使用當成「通用推理技能」
AdaReasoner 是一個訓練范式：讓模型不僅會「調用工具」，更會做三類決策：
選擇：該用哪個工具？要不要組合多個工具？時機：什么時候該用？什么時候不該用？魯棒性：工具失敗/無用怎么辦？是否回退、是否換策略？
AdaReasoner 把「工具使用」當成推理技能來學習：會采納有用工具、丟棄無關工具，并按任務調節調用頻率。
03 三個關鍵設計：
讓「會用工具」從口號變成能力
3.1 Tool Cold Start (TC)：把「犯錯-修正」寫進數據里
我們不是只給模型看「完美路徑」，而是刻意加入兩類真實世界會發生的場景：
反思與回溯：試一下 → 檢查 → 不對就撤回/換方案。工具失敗處理：工具返回錯誤/無效 → 及時止損 → 回退到模型自身能力。
定性案例：多輪工具規劃 + 反思糾錯 + 組合工具完成復雜視覺推理
3.2 Tool-GRPO (TG)：優化「多輪工具編排」，而不是單次調用
多模態工具推理往往不是「一次調用結束」，而是多回合：
觀察 → 調用 → 再觀察 → 再調用 → 最終回答。
Tool-GRPO 針對 multi-turn 場景做了專門的強化學習優化，并用自適應獎勵把工具使用變成「不確定時的可靠后備」，而不是強制流程。
3.3 Adaptive Learning (ADL)：逼模型學「語義」，別背「名字」
為了避免模型死記硬背某個工具名（比如看到 \"Point\" 就條件反射），我們做了兩件事：
工具名/參數名隨機化（去掉字面提示）。工具描述改寫（同一語義、多種表達）。
隨機化訓練的直觀示意

AdaReasoner 框架總覽：Tool Cold Start → Tool-GRPO → Adaptive Learning
04 最硬的證據：
小模型為什么能「跨級打怪」？
先給結論：AdaReasoner-7B 相對 base 模型在多個基準上實現顯著提升（在選取的 8 個 benchmark 上平均 +24.9%），并在結構化推理任務上接近滿分。

主實驗結果：在 VSP、Jigsaw、GUIQA 等任務上顯著提升。
更重要的是：不是「工具越多越好」，而是訓練配方決定工具是否真的幫得上忙。
例如在單任務設置下：
VSP: Base 28.09 → TC 64.91 → TG 73.18 → TC+TG 97.64 Jigsaw: Base 45.70 → TC 84.20 → TC+TG 96.60（超過 GPT-5 的 80.10）
瓶頸遷移示意：當工具規劃足夠好，性能瓶頸從「模型規?！共糠诌w移到「工具效用與工具規劃能力」
05 最有意思的部分：模型真的
學出了「三種自適應工具行為」
這部分是 AdaReasoner 最像「智能體」的地方：我們沒有寫規則讓它這么做，但它在 RL 過程中學會了。
行為 1：會「采納」有用的新工具（Adopt）
把 A* 規劃工具放進強化學習階段（Cold Start 沒見過），模型會逐步提高調用頻率并穩定掌握：
VSP Navigation 從 44.83 → 96.33

Navigation 任務示意

A* 工具調用頻率隨 RL 訓練演化
行為 2：會「丟棄」無關工具（Discard）
更關鍵的是：A* 對 Verify 任務沒用，甚至是干擾項。
在「只在推理時提供 A*」的設置里， Verify 會出現 94.20 → 80.00 的下降。
而在 RL 訓練后，模型會逐步壓制無關調用，讓 Verify 維持在接近滿分（99.20）。
一句話：它不僅會用工具，還會學會「別亂用」。
行為 3：會「調節」調用頻率（Modulate）
工具也不是開/關二選一。模型會根據子任務「調頻」：
Point 工具在導航更關鍵（~3.2 calls/sample），在驗證更克制（~1.0 call/sample）

Point 工具調用頻率「調頻」：Navigation 中更關鍵， Verification 中更克制
06 換工具說明書
也能用：泛化與穩健性
現實里最常見的崩潰方式是：工具定義、參數名、描述文案一變，模型就「不會用了」。
AdaReasoner 用 ADL（隨機化 + 改寫）把「工具規劃」從文本表面形式里解耦出來。
一個很直觀的證據來自工具使用統計：
在 Jigsaw 上達到 3.54 CPS 且工具執行成功率 98.50% ，最終準確率 88.60 。在 VStar 這種更開放的 VQA 上仍能主動調用工具（1.47 CPS）并取得 70.68 。
工具使用統計（CPS、成功率）與性能
此外，使用 ADL ，模型能夠更容易在新的任務上取得更好的表現。我們僅使用 Jigsaw 這一個任務的 SFT 數據，在三個任務上 RL ，可以看到，使用 ADL 的版本能夠在另外兩個任務上給模型帶來效果上的提升。

ADL 能將單個任務上學來的 agent planning 能力遷移到 SFT 沒見過的任務上。
07 我們想強調的
學術結論（Takeaways）
多模態推理不只是「think harder」。更關鍵的是：
actively seeing verifying and planning with tools.
當工具編排學得足夠好，瓶頸會發生遷移：
model scale → tool utility + tool planning
【AdaResoner實現Agentic Vision的主動「視覺工具思考」】這對小模型尤其重要：參數有限時，「會用工具」就是最直接的能力放大器。
從 Agentic Vision 看趨勢：Google 用 Agentic Vision 把 Think-Act-Observe 內置到 Gemini ，學術界用 AdaReasoner 驗證這套范式在開源模型上的可行性——兩條路線同時驗證了「主動工具使用」的價值。對于希望在自己數據/場景上復現這種能力的研究者和開發者， AdaReasoner 提供了一套完整的開源方案。
Adaptive Learning 對提升模型的泛化性也有很大幫助，可以幫助將 agent planning 能力遷移到以前沒見過的 agent 和新的任務上去。

推薦閱讀

上一篇：大模型黑箱被撬開：MIT華人聯創，造出能追溯思考過程的大模型

下一篇：小米17T系列完成備案：天璣雙芯+徠卡影像