DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智能版本

DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智能版本

文章圖片

DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智能版本

文章圖片

DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智能版本

文章圖片

DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智能版本

文章圖片

DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智能版本

文章圖片

DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智能版本

文章圖片

DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智能版本

文章圖片



本研究由中科院自動化所和騰訊混元聯合研發 , 團隊成員包括 Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng Jie Jiang
背景:多模態大模型的思考困境
當前 , 業界頂尖的大模型正競相挑戰“過度思考”的難題 , 即無論問題簡單與否 , 它們都采用 “always-on thinking” 的詳細推理模式 。 無論是像 DeepSeek-V3.1 這種依賴混合推理架構提供需用戶“手動”介入的快慢思考切換 , 還是如 GPT-5 那樣通過依賴龐大而高成本的“專家路由”機制提供的自適應思考切換 。 它們距離真正意義上的“智能思考”仍有距離 。 這些方案或將判斷壓力轉移給用戶 , 或受限于復雜的系統架構和高昂的部署成本 。 因此 , 研發一款輕量化、支持多模態且能實現更智能自適應思考的大模型 , 將為用戶提供更加流暢的交互體驗 。

近期 , 由騰訊混元團隊與中科院自動化所合作的一項最新研究推出 R-4B 多模態大模型 , 通過自適應思考(auto-thinking)機制 , 改變了這一現狀 , 它讓 AI 能像人類一樣 “智能切換” 思維模式 。 簡單問題直接響應 , 復雜問題深度推理 , 在最大化回答準確性的同時 , 最小化計算開銷 。

論文標題:R-4B: INCENTIVIZING GENERAL-PURPOSE AUTOTHINKING CAPABILITY IN MLLMS VIA BI-MODE ANNEALING AND REINFORCE LEARNING 論文鏈接:https://arxiv.org/pdf/2508.21113這一 “按需思考” 的核心能力 , 為 4B 量級的多模態模型樹立了全新的性能標桿 , 使其在評測性能指標上成功超越了 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大規模的模型 。
【DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智能版本】
同時 , R-4B 在權威基準 OpenCompass 榜單上取得了優異成績 。
登頂 OpenCompass 多模態學術榜單:在 20B 以內規模多模態大模型中 , 性能排名 Top 1!
位列 OpenCompass 多模態推理榜單開源榜首:在開源模型中 , 推理性能拔得頭籌!
目前 , 該模型已在 GitHub 和 HuggingFace 上線 , 且支持 vLLM 快速部署 。 「消費級顯卡即可運行 , 適用于筆記本電腦、智能座艙、智能家居等低功耗場景 , 支持垂直領域低成本微調 。 」截至目前下載量已破萬 , 歡迎大家體驗!
GitHub 代碼倉庫:https://github.com/yannqi/R-4B Hugging Face 模型下載:https://huggingface.co/YannQi/R-4B突破:R-4B 的自適應思考引擎
R-4B 的智慧之處在于其自適應思考能力:

遇到簡單問題(簡單實體識別、簡易問答) , 它選擇直接、高效地響應 。 面對復雜任務(如數學計算、圖表分析) , 它則自動切換到深度思考模式 , 生成詳細的思考過程 。R-4B 的核心創新在于其獨特的兩階段訓練策略 。 為實現模型在通用領域的自適應思考 , 研究團隊首先提出雙模退火(bi-mode annealing)訓練策略 , 促使模型同時掌握通用領域的思考與非思考能力 。
該階段可以理解為對模型進行 “思考” 啟蒙 , 即同時喂給它兩種范式數據:一種需要直接回答(非思考模式 , 像日常對話) , 另一種需要詳細推理(思考模式 , 像解數學題) 。 通過這種訓練 , 模型同時掌握了思考和非思考這兩種響應模式 , 為后續的自適應思考模式訓練打下堅實基礎 。 該階段的核心是通用領域推理和非推理模式的數據構建策略:針對客觀題 , 用模型采樣的答案一致性來衡量題目的難易程度;針對主觀題目 , 用提示工程的方式去區分解決問題是否需要進一步思考 。

推理模式數據:涵蓋圖表分析、邏輯推理等需多步推理的任務(如科學圖解或數學問題) 。 非推理模式數據:針對直接事實響應的查詢(如實體識別或簡單問答) 。
經過退火訓練 , 得到一個同時精通思考與非思考模式的基礎模型 R-4B-Base, 為后續自適應思考強化訓練奠定基礎 。 基于此 , 團隊開發了雙模策略優化(Bi-mode Policy Optimization BPO)強化學習算法 。 它無需依賴精心設計的獎勵函數或特定數據 , 而是僅依賴基于規則的獎勵信號 , 從數學數據出發 , 并可泛化到通用領域 。 其核心是混合雙模 rollout 機制 , 通過強制模型在訓練中同時探索思考模式和非思考模式軌跡 , 從而避免模型陷入對單一模式的響應偏好 。 在此基礎上 , 通過同時獎勵兩種思考模式的策略 , 使模型自己學會判別何時應該思考 。

性能表現:小模型 , 大能量
R-4B-RL 模型在多項公開基準測試中性能表現卓越 , 刷新了現有記錄 , 其性能超過 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大規模的模型 。

更關鍵的是 , R-4B-RL 在自適應思考模式下實現了推理效率的提升 , 在簡單任務下模型無需消耗更多的 Token 。 這證明了 BPO 算法的有效性 , 即無需通用領域的強化學習數據或額外的獎勵函數設計 , 模型也能實現自適應思考 。

應用前景:從科研到產業的智能化浪潮
R-4B 的突破不止于技術 , 更開啟了廣闊應用場景:
應用智能 :在日常問答分析中 , 自動切換簡單查詢(如文檔內容提?。 ┖透叢油評恚ㄈ繽急矸治觶┑乃嘉J?, 提升自動化處理效率 。 科學研究 :在處理科學圖表時 , R-4B 的深度推理模式可解析多步關系 , 精準解讀數據 , 提高研究效率 。 消費級 AI :邊緣設備部署中 , R-4B 憑借更少的參數和自適應思考模式降低延遲和能耗 , 適用于即時問答系統 。(1) 文檔內容提?。 虻ゲ檠?

(2) 圖表分析(復雜推理)

結語:自適應思考 , 探索 AI 發展新道路
從雙模退火訓練到 BPO 優化 , R-4B 不僅解決了 MLLMs 的思考困境 , 更在小尺寸模型上探索了自適應思考的可行性。 自適應思考不僅是技術優化 , 更是對效率與普惠平衡的追求 。 在 AI 計算與推理成本飆升的今天 , R-4B 的輕量化、智能化設計 , 為大模型可持續發展注入綠色動力 。
R-4B 模型已全面開源 , 支持 vLLM 高效推理 。 下載量火速破萬 , 誠邀體驗與共建!

    推薦閱讀