DeepSeek、GPT-5都在嘗試的快慢思考切換，有了更智能版本

2026-04-28 ai 數學 deepseek

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

本研究由中科院自動化所和騰訊混元聯合研發，團隊成員包括 Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng Jie Jiang
背景：多模態大模型的思考困境
當前，業界頂尖的大模型正競相挑戰“過度思考”的難題，即無論問題簡單與否，它們都采用 “always-on thinking” 的詳細推理模式。無論是像 DeepSeek-V3.1 這種依賴混合推理架構提供需用戶“手動”介入的快慢思考切換，還是如 GPT-5 那樣通過依賴龐大而高成本的“專家路由”機制提供的自適應思考切換。它們距離真正意義上的“智能思考”仍有距離。這些方案或將判斷壓力轉移給用戶，或受限于復雜的系統架構和高昂的部署成本。因此，研發一款輕量化、支持多模態且能實現更智能自適應思考的大模型，將為用戶提供更加流暢的交互體驗。

近期，由騰訊混元團隊與中科院自動化所合作的一項最新研究推出 R-4B 多模態大模型，通過自適應思考（auto-thinking）機制，改變了這一現狀，它讓 AI 能像人類一樣 “智能切換” 思維模式。簡單問題直接響應，復雜問題深度推理，在最大化回答準確性的同時，最小化計算開銷。

論文標題：R-4B: INCENTIVIZING GENERAL-PURPOSE AUTOTHINKING CAPABILITY IN MLLMS VIA BI-MODE ANNEALING AND REINFORCE LEARNING 論文鏈接：https://arxiv.org/pdf/2508.21113這一 “按需思考” 的核心能力，為 4B 量級的多模態模型樹立了全新的性能標桿，使其在評測性能指標上成功超越了 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大規模的模型。
【DeepSeek、GPT-5都在嘗試的快慢思考切換，有了更智能版本】
同時， R-4B 在權威基準 OpenCompass 榜單上取得了優異成績。
登頂 OpenCompass 多模態學術榜單：在 20B 以內規模多模態大模型中，性能排名 Top 1！
位列 OpenCompass 多模態推理榜單開源榜首：在開源模型中，推理性能拔得頭籌！
目前，該模型已在 GitHub 和 HuggingFace 上線，且支持 vLLM 快速部署。「消費級顯卡即可運行，適用于筆記本電腦、智能座艙、智能家居等低功耗場景，支持垂直領域低成本微調。」截至目前下載量已破萬，歡迎大家體驗！
GitHub 代碼倉庫：https://github.com/yannqi/R-4B Hugging Face 模型下載：https://huggingface.co/YannQi/R-4B突破：R-4B 的自適應思考引擎
R-4B 的智慧之處在于其自適應思考能力：

遇到簡單問題（簡單實體識別、簡易問答），它選擇直接、高效地響應。面對復雜任務（如數學計算、圖表分析），它則自動切換到深度思考模式，生成詳細的思考過程。R-4B 的核心創新在于其獨特的兩階段訓練策略。為實現模型在通用領域的自適應思考，研究團隊首先提出雙模退火（bi-mode annealing）訓練策略，促使模型同時掌握通用領域的思考與非思考能力。
該階段可以理解為對模型進行 “思考” 啟蒙，即同時喂給它兩種范式數據：一種需要直接回答（非思考模式，像日常對話），另一種需要詳細推理（思考模式，像解數學題）。通過這種訓練，模型同時掌握了思考和非思考這兩種響應模式，為后續的自適應思考模式訓練打下堅實基礎。該階段的核心是通用領域推理和非推理模式的數據構建策略：針對客觀題，用模型采樣的答案一致性來衡量題目的難易程度；針對主觀題目，用提示工程的方式去區分解決問題是否需要進一步思考。

推理模式數據：涵蓋圖表分析、邏輯推理等需多步推理的任務（如科學圖解或數學問題）。非推理模式數據：針對直接事實響應的查詢（如實體識別或簡單問答）。
經過退火訓練，得到一個同時精通思考與非思考模式的基礎模型 R-4B-Base，為后續自適應思考強化訓練奠定基礎。基于此，團隊開發了雙模策略優化（Bi-mode Policy Optimization BPO）強化學習算法。它無需依賴精心設計的獎勵函數或特定數據，而是僅依賴基于規則的獎勵信號，從數學數據出發，并可泛化到通用領域。其核心是混合雙模 rollout 機制，通過強制模型在訓練中同時探索思考模式和非思考模式軌跡，從而避免模型陷入對單一模式的響應偏好。在此基礎上，通過同時獎勵兩種思考模式的策略，使模型自己學會判別何時應該思考。

性能表現：小模型，大能量
R-4B-RL 模型在多項公開基準測試中性能表現卓越，刷新了現有記錄，其性能超過 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大規模的模型。

更關鍵的是， R-4B-RL 在自適應思考模式下實現了推理效率的提升，在簡單任務下模型無需消耗更多的 Token 。這證明了 BPO 算法的有效性，即無需通用領域的強化學習數據或額外的獎勵函數設計，模型也能實現自適應思考。

應用前景：從科研到產業的智能化浪潮
R-4B 的突破不止于技術，更開啟了廣闊應用場景：
應用智能：在日常問答分析中，自動切換簡單查詢（如文檔內容提?。 ┖透叢油評恚ㄈ繽急矸治觶┑乃嘉Ｊ?，提升自動化處理效率。科學研究：在處理科學圖表時， R-4B 的深度推理模式可解析多步關系，精準解讀數據，提高研究效率。消費級 AI ：邊緣設備部署中， R-4B 憑借更少的參數和自適應思考模式降低延遲和能耗，適用于即時問答系統。(1) 文檔內容提?。 虻ゲ檠?

(2) 圖表分析（復雜推理）

結語：自適應思考，探索 AI 發展新道路
從雙模退火訓練到 BPO 優化， R-4B 不僅解決了 MLLMs 的思考困境，更在小尺寸模型上探索了自適應思考的可行性。自適應思考不僅是技術優化，更是對效率與普惠平衡的追求。在 AI 計算與推理成本飆升的今天， R-4B 的輕量化、智能化設計，為大模型可持續發展注入綠色動力。
R-4B 模型已全面開源，支持 vLLM 高效推理。下載量火速破萬，誠邀體驗與共建！

推薦閱讀

上一篇：百度地圖app再出現強制廣告，關閉按鈕太能藏了

下一篇：快手的AI敘事，開始切到「群像戲」