
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
本文第一作者是阿里巴巴達摩院研究實習生孫雨 , 他的主要研究興趣方向是Medical Reasoning LM 。 本文通訊作者是阿里巴巴達摩院資深專家徐挺洋博士 。
在人工智能領域 , 推理語言模型(RLM)雖然在數學與編程任務中已展現出色性能 , 但在像醫學這樣高度依賴專業知識的場景中 , 一個亟待回答的問題是:復雜的多步推理會幫助模型提升醫學問答能力嗎?要回答這個問題 , 需要構建足夠高質量的醫學推理數據 , 當前醫學推理數據的構建存在以下挑戰:
數據匱乏:現有醫學領域思維鏈數據規模較少 , 且缺乏一個流水線來批量構建一個高質量大規模醫學推理數據集;
來源單一:現有數據集多依賴單一模型生成 , 未能結合不同預訓練模型的知識域差異 , 豐富和探索多樣化的推理路徑;
構建數據成本高:構建高質量、大規模醫學推理數據集往往需要調用大模型生成和人工參與驗證 , 計算和人力成本都非常高昂 , 難以支撐百萬級規模的擴展 。
缺乏有效性驗證:缺乏系統性實驗來對比「詳細解說診斷思維」與「直接給出結論」兩種訓練策略的優劣 。
因此 , 我們亟需探索更科學的方法 , 為模型注入權威醫學知識、擴展其知識邊界 , 并生成更嚴謹、高質量的多步推理路徑 。 針對上述挑戰 , ReasonMed 提出一套完整的醫療推理數據生成解決方案:
多源知識的整合:從四個權威醫學問答基準(MedQA、MMLU、PubMedQA、MedMCQA)匯聚約 19.5 萬醫學問題 , 覆蓋廣泛的專業知識面 。
多模型的數據構建:通過引入多個專有模型 , 共同生成并驗證醫療推理路徑 , 多模型互補與交叉驗證提升了知識覆蓋與邏輯一致性 , 更好的構建規模化且高質量的醫學推理數據 。
基于多智能體交互的多維驗證和優化:設計「Easy-Medium-Difficult」分層管線 , 根據驗證通過率動態選擇不同處理策略 。 通過多智能體交互的方式來對醫學推理數據的邏輯一致性、答案正確性和醫學事實性多維度進行驗證優化 , 實現高質量與低成本的平衡 。
推理路徑注入和精煉:引入推理路徑注入與自動化精煉機制 , 以提升邏輯連貫性與知識準確度 。 同時對于每條推理樣本保留完整的多步推理鏈(CoT)與由響應摘要器生成的簡明答案(Response) , 實現推理過程與最終結論的雙重監督 。
基于上述框架 , 阿里巴巴達摩院聯合多家機構提出醫學推理數據生成新范式 ReasonMed , 并開源百萬級高質量數據集 ReasonMed370K 。 該范式通過多智能體協作、多溫度采樣與逐步校驗 , 動態調用不同參數模型 , 既保證推理質量與知識注入 , 又顯著提升數據多樣性 。
基于此數據集訓練微調的 ReasonMed-7B/14B 在多項權威醫學問答基準上(PubMedQA 上性能:82.0%)超越更大規模模型(LLaMA3.1-70B:77.4%) , 充分驗證了「小模型 + 高質量數據」的潛力 。 同時 ReasonMed 也在 EMNLP 2025 上以高分(9 分)被接收 。
論文鏈接:https://arxiv.org/abs/2506.09513 Hugging Face:https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed Code:https://github.com/alibaba-damo-academy/ReasonMed
基于多智能體協作的醫療推理數據的構建
ReasonMed 多智能體系統介紹
ReasonMed 的多智能體體系由多個專門角色(Agents)組成 , 每個 Agent 負責不同階段的推理生成、驗證與優化 , 共同構建高質量醫學推理數據集 。 下面是 ReasonMed 中各個組件的功能介紹:
CoT Generator(推理生成 Agent):包含多種不同大語言模型(Qwen2.5-72B、HuatuoGPT-o1-70B、DeepSeek-R1-Distill-LLaMA-70B) , 通過在不同溫度配置下生成多條推理路徑 , 形成多樣化的推理語料 。 這種多模型、跨溫度的設計使 ReasonMed 能充分結合不同模型的知識優勢與風格差異 , 既豐富推理模式 , 也增強數據的邏輯多樣性 。
Verifier(驗證 Agent):評估每條推理鏈的正確性、臨床要點識別、邏輯一致性與醫學事實準確性 。 輸出結構化結果(Correct/Error + 原因) , 為后續篩選與修正提供依據 。
Response Summarizer(摘要 Agent):將復雜的 CoT 推理提煉為簡潔、符合醫學問答風格的總結回答 , 使數據同時具備推理深度與可讀性 。
Quality Ranker(質量排序 Agent):對通過驗證的多條正確 CoT 進行評分與排序 , 選出前兩條質量最高的推理路徑(Top-2) , 確保訓練數據的代表性與多樣性 。
Error Refiner(錯誤修正 Agent):聚焦難樣本 , 基于驗證反饋識別邏輯或事實錯誤 , 并調用更強模型進行針對性修正 , 以保持推理鏈邏輯完整性和事實準確性 。
Score Evaluator(評分評估 Agent):量化不同階段推理優化的效果 , 評估修正后樣本的整體提升幅度與數據集質量 , 形成閉環反饋 。ReasonMed 的多智能體系統通過「生成-驗證-排序-修正-評估」的閉環流程 , 將多個模型的專長整合為一個高可靠、可擴展的醫學推理數據構建體系 。
數據生成流程
基于以上的多智能體系統 , ReasonMed 整個醫療推理數據生成過程分為以下三個步驟:
數據收集(Data Collection)
ReasonMed 首先從四個權威醫學問答數據集(MedQA、MedMCQA、PubMedQA、MMLU)收集 19.5 萬個醫學問題 , 構建初始問題庫 。 這些問題覆蓋解剖學、臨床知識、遺傳學等多個子領域 , 為多模型協同生成提供廣泛知識基礎 。
多智能體推理生成與驗證(Multi-Agent CoT GenerationValidation)
在該階段 , CoT Generator 針對每個問題以不同溫度參數進行采樣 , 共生成 9 條多步推理鏈 , 覆蓋從直接推斷到深度分析的多層邏輯 , 隨后由 Verifier 智能體協同完成驗證 。這一流程實現了從多模型輸出到結構化、多維驗證的知識融合 , 確保了生成數據在多樣性與正確性上的平衡 , 為后續分層精煉與高質量醫學推理數據集的構建奠定了基礎 。
分層優化與推理精煉(CoT Pipeline Refinement)
根據 Verifier 驗證后統計到的推理鏈錯誤數量 , ReasonMed 設計了 Easy / Medium / Difficult 三條 Pipeline:
Easy Pipeline(9 條推理鏈中有 0–4 個錯誤):對于驗證通過率高的問題 , 直接由 Quality Ranker 選出 Top-2 優質 CoT 作為最終樣本;
Medium Pipeline(9 條推理鏈中有 5–7 個錯誤):存在部分邏輯或事實性錯誤的問題 , 調用 Error Refiner 基于 Verifier 的反饋進行針對性修正與細粒度補充 , 強化邏輯完整性;
Difficult Pipeline(9 條推理鏈中有 8–9 個錯誤):錯誤率極高 , 則調用更強模型(GPT-o1)重新生成完整推理鏈 , 相當于由專家重新診斷并開具「二次報告」 。該分層機制顯著提升了數據一致性與可靠性 。 通過在不同難度層面引入差異化處理 , ReasonMed 成功在保持高精度的同時 , 將整體數據構建成本降低約 73% , 實現高質量與低成本的統一 。
質量評估與數據匯總
我們通過 Score Evaluator , 基于邏輯連貫性(coherence)、醫學事實一致性(factual fidelity)、選項分析完整性(option analysis)等方面對樣本進行 0–10 分量化評分 , 驗證各階段精煉帶來的質量提升 。
經過這一全流程篩選與優化后 , 最終形成 37 萬條高質量醫學推理樣本(ReasonMed370K) , 用于后續模型訓練與評估 。 基于同樣的評分邏輯 , 我們也對比了生成的數據和當前公開醫學推理數據的質量:
結果表明 , ReasonMed 在評分均值上顯著優于現有公開數據集 , 驗證了 ReasonMed 框架的有效性 。
為了進一步分析「顯式推理」與「總結式回答」等不同的思維模式在醫學大模型訓練中的貢獻 , 我們從同一數據源中抽取并拆分出三個變體:
CoTMed370K 保留原始的詳細推理軌跡 , 重點訓練模型復現多步推理過程與思維邏輯 , 使模型學習復雜醫學推理的鏈式結構;
ResponseMed370K 僅保留由 Response Summarizer 生成的精煉結論部分 , 用于訓練模型在保留關鍵信息的同時生成簡潔、臨床友好的回答 。
ReasonMed370K 包含完整的多步推理鏈以及由多智能體生成的簡明答案(Response)
ReasonMed-7B / 14B 模型效果評估
為了驗證生成數據對于模型構建的貢獻 , 我們基于 ReasonMed370K/ResponseMed370K/CoTMed370K 在 Qwen2.5-7B 進行了微調構建了三族模型 ReasonMed-7/14B , ResponseMed-7B 和 CoTMed-7B/14B 。 我們和當前的主流醫療/通用模型在 MedQA/MedMCQA/PubMedQA/MMLU 數據集上進行了對比 。 得到以下結論:
基于 ReasonMed370K 訓練的小模型效果可比甚至超越 70B 級別模型
在多個權威醫學問答基準(包括 PubMedQA、MedMCQA、MMLU-Med)上 , ReasonMed-7B 展現了顯著優勢 。
其中 , 在 PubMedQA 上達到 82.0% 的準確率 , 超過了 LLaMA3.1-70B 的 77.4%;在 MedMCQA 與 MMLU 醫學子集上也表現穩定提升 。
進一步擴展至 14B 參數規模后 , ReasonMed-14B 的整體準確率達到 72.8% , 相較于 Qwen2.5-14B 提升 3.8%(72.8% vs 69.0%) , 并在總體性能上超越 Qwen2.5-32B(72.6%) , 與 LLaMA3.1-70B(72.9%)幾乎持平 。
這表明 ReasonMed 的「多智能體生成 + 分層優化」策略具備強大的可擴展性——即便是中小規模模型 , 也能在醫學推理任務中實現與超大模型相當的表現 。
融合推理路徑與總結答案的訓練策略效果最佳
為了分析不同數據類型對模型推理能力的影響 , 團隊基于同一底座(Qwen2.5-7B)訓練了三個版本:
CoTMed-7B:學習完整推理路徑 , 強調邏輯鏈條復現;
ResponseMed-7B:僅學習簡明答案 , 注重輸出的準確性與簡潔性;
ReasonMed-7B:結合推理路徑與總結式答案的混合訓練策略 。
結果顯示 , ReasonMed-7B 的融合策略效果最佳 , 在綜合準確率上達 69.6% , 分別超越 CoTMed-7B(69.1%)和 ResponseMed-7B(67.0%) 。 同時 , 其生成輸出在邏輯深度與表達簡潔度之間取得了良好平衡 , 既具可解釋性 , 又具實用性 。
這驗證了 ReasonMed 的核心理念:顯式推理鏈的學習能顯著增強模型的泛化推理能力 , 而「推理 + 總結」融合策略是醫學 QA 領域更優的訓練路徑 。
基于多智能體的分層處理策略顯著降低思維鏈路生成成本 , 兼顧質量與效率
同時我們也驗證了 , ReasonMed 的分層優化機制(Easy / Medium / Difficult Pipeline)在確保數據質量的同時顯著降低了數據構建成本 。
若完全依賴最先進的大模型 API 生成 37 萬條復雜推理鏈 , 成本預計在 16631 美元;而在 ReasonMed 的實際設計中 , 僅約 2.56% 的樣本進入最高難度流程 , 需調用更強模型 , 其余問題均由中等規模模型完成 。在這一策略下 , 項目總成本約 4552 美元(o1 API 推理花費 3595 美元) , 實現了 70% 以上的成本節省 。
這種「難題精修、易題高效」的分層機制 , 在保證推理鏈質量與一致性的前提下 , 實現了高性價比的數據構建 , 為大規模推理數據的可持續生產提供了可復制模板 。
項目意義和展望
ReasonMed 項目的推出 , 為醫學 AI 研究提供了新的范式 , 其核心價值主要體現在以下幾個方面:
填補醫學推理數據空白:ReasonMed370K 提供了當前業界規模最大、質量最高的開源醫學推理數據集 , 極大緩解了醫學領域數據匱乏的問題 , 為后續研究和應用提供了堅實可靠的基礎 。
驗證了顯式多步推理在醫療模型的訓練的關鍵作用:通過系統性地驗證顯式推理路徑對模型性能提升的關鍵作用 , ReasonMed 明確了知識密集型 AI 的訓練方法論 , 為未來 AI 模型的研發提供了清晰的實踐指南 。
推動「小模型 + 高質量數據」路線:在特定專業領域 , 小模型搭配高質量數據可顯著超越更大規模模型的性能 , 可以有效降低了醫療 AI 工具研發的成本門檻 。
低成本 , 標準化的可擴展思維鏈生成框架:ReasonMed 框架可以遷移至其他知識密集領域(如生命科學 , 材料科學等) , 為構建特定領域的數據集提供了參考 , 具有跨領域應用的潛力 。
同時 , ReasonMed 相關技術也用到了達摩院多模態醫療大模型 Lingshu[1
的構建中 。 接下來 , 我們計劃進一步擴展數據覆蓋的深度與廣度 , 探索如影像診斷、多模態理解、醫學工具調用等更復雜的醫學推理場景 。 同時 , 我們也希望通過開放協作 , 讓更多研究者參與數據完善與模型優化 , 共同建立一個持續演化、可信可復用的醫學推理生態 。
社區反饋
ReasonMed 發布后在社區內引發了積極反響 。 研究者普遍認為其「多智能體 × 分層調優」策略為高質量推理數據生成提供了新范式 , 并在 Hugging Face 與社區獲得了廣泛關注 。 論文發布當天即登上 Hugging Face「Paper of the Day」榜首 , 并獲得 Hugging Face CEO 在 X 平臺的轉發與推薦 , 引發了業內研究者與開發者的熱烈討論 。
【達摩院推出多智能體框架ReasonMed,打造醫學推理數據生成新范式】
[1
https://huggingface.co/lingshu-medical-mllm
推薦閱讀
- 淘工廠聯合支付寶推出“天天秒殺” 天貓雙11日銷破248萬單!
- 拜拜了GUI!中科院團隊“LLM友好”計算機使用接口來了
- DDN推出基于英偉達平臺的一體化企業AI HyperPOD系統
- 美團與云跡合作推出“小袋快送”,落地近2萬家酒店,升級酒店外賣配送體驗
- 雙核戰力在EVNIA!“我們學校潮好玩”落地安徽文達信息工程學院
- 雙核戰力 競在EVNIA!“我們學校潮好玩”落地安徽文達信息工程學院
- Anomalo推出智能數據分析師AIDA,生成式AI賦能數據質量監控
- 從安心到悅心!中興通訊把AI家庭四大件搬進北京中軸線百年古院
- 蘋果下一代iPad mini 8或引入OLED屏幕與防水設計,有望明年推出
- AI化身正義!病人逝世醫院開出近140萬天價賬單:AI直接砍至23萬
