達摩院推出多智能體框架ReasonMed，打造醫學推理數據生成新范式_阿里巴巴|ai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

本文第一作者是阿里巴巴達摩院研究實習生孫雨，他的主要研究興趣方向是Medical Reasoning LM 。本文通訊作者是阿里巴巴達摩院資深專家徐挺洋博士。

在人工智能領域，推理語言模型（RLM）雖然在數學與編程任務中已展現出色性能，但在像醫學這樣高度依賴專業知識的場景中，一個亟待回答的問題是：復雜的多步推理會幫助模型提升醫學問答能力嗎？要回答這個問題，需要構建足夠高質量的醫學推理數據，當前醫學推理數據的構建存在以下挑戰：

數據匱乏：現有醫學領域思維鏈數據規模較少，且缺乏一個流水線來批量構建一個高質量大規模醫學推理數據集；

來源單一：現有數據集多依賴單一模型生成，未能結合不同預訓練模型的知識域差異，豐富和探索多樣化的推理路徑；

構建數據成本高：構建高質量、大規模醫學推理數據集往往需要調用大模型生成和人工參與驗證，計算和人力成本都非常高昂，難以支撐百萬級規模的擴展。

缺乏有效性驗證：缺乏系統性實驗來對比「詳細解說診斷思維」與「直接給出結論」兩種訓練策略的優劣。

因此，我們亟需探索更科學的方法，為模型注入權威醫學知識、擴展其知識邊界，并生成更嚴謹、高質量的多步推理路徑。針對上述挑戰， ReasonMed 提出一套完整的醫療推理數據生成解決方案：

多源知識的整合：從四個權威醫學問答基準（MedQA、MMLU、PubMedQA、MedMCQA）匯聚約 19.5 萬醫學問題，覆蓋廣泛的專業知識面。

多模型的數據構建：通過引入多個專有模型，共同生成并驗證醫療推理路徑，多模型互補與交叉驗證提升了知識覆蓋與邏輯一致性，更好的構建規模化且高質量的醫學推理數據。

基于多智能體交互的多維驗證和優化：設計「Easy-Medium-Difficult」分層管線，根據驗證通過率動態選擇不同處理策略。通過多智能體交互的方式來對醫學推理數據的邏輯一致性、答案正確性和醫學事實性多維度進行驗證優化，實現高質量與低成本的平衡。

推理路徑注入和精煉：引入推理路徑注入與自動化精煉機制，以提升邏輯連貫性與知識準確度。同時對于每條推理樣本保留完整的多步推理鏈（CoT）與由響應摘要器生成的簡明答案（Response），實現推理過程與最終結論的雙重監督。

基于上述框架，阿里巴巴達摩院聯合多家機構提出醫學推理數據生成新范式 ReasonMed ，并開源百萬級高質量數據集 ReasonMed370K 。該范式通過多智能體協作、多溫度采樣與逐步校驗，動態調用不同參數模型，既保證推理質量與知識注入，又顯著提升數據多樣性。

基于此數據集訓練微調的 ReasonMed-7B/14B 在多項權威醫學問答基準上（PubMedQA 上性能：82.0%）超越更大規模模型（LLaMA3.1-70B：77.4%），充分驗證了「小模型 + 高質量數據」的潛力。同時 ReasonMed 也在 EMNLP 2025 上以高分（9 分）被接收。

論文鏈接：https://arxiv.org/abs/2506.09513 Hugging Face：https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed Code：https://github.com/alibaba-damo-academy/ReasonMed
基于多智能體協作的醫療推理數據的構建
ReasonMed 多智能體系統介紹

ReasonMed 的多智能體體系由多個專門角色（Agents）組成，每個 Agent 負責不同階段的推理生成、驗證與優化，共同構建高質量醫學推理數據集。下面是 ReasonMed 中各個組件的功能介紹：

CoT Generator（推理生成 Agent）：包含多種不同大語言模型（Qwen2.5-72B、HuatuoGPT-o1-70B、DeepSeek-R1-Distill-LLaMA-70B），通過在不同溫度配置下生成多條推理路徑，形成多樣化的推理語料。這種多模型、跨溫度的設計使 ReasonMed 能充分結合不同模型的知識優勢與風格差異，既豐富推理模式，也增強數據的邏輯多樣性。
Verifier（驗證 Agent）：評估每條推理鏈的正確性、臨床要點識別、邏輯一致性與醫學事實準確性。輸出結構化結果（Correct/Error + 原因），為后續篩選與修正提供依據。
Response Summarizer（摘要 Agent）：將復雜的 CoT 推理提煉為簡潔、符合醫學問答風格的總結回答，使數據同時具備推理深度與可讀性。
Quality Ranker（質量排序 Agent）：對通過驗證的多條正確 CoT 進行評分與排序，選出前兩條質量最高的推理路徑（Top-2），確保訓練數據的代表性與多樣性。
Error Refiner（錯誤修正 Agent）：聚焦難樣本，基于驗證反饋識別邏輯或事實錯誤，并調用更強模型進行針對性修正，以保持推理鏈邏輯完整性和事實準確性。
Score Evaluator（評分評估 Agent）：量化不同階段推理優化的效果，評估修正后樣本的整體提升幅度與數據集質量，形成閉環反饋。ReasonMed 的多智能體系統通過「生成-驗證-排序-修正-評估」的閉環流程，將多個模型的專長整合為一個高可靠、可擴展的醫學推理數據構建體系。
數據生成流程

基于以上的多智能體系統， ReasonMed 整個醫療推理數據生成過程分為以下三個步驟：

數據收集（Data Collection）
ReasonMed 首先從四個權威醫學問答數據集（MedQA、MedMCQA、PubMedQA、MMLU）收集 19.5 萬個醫學問題，構建初始問題庫。這些問題覆蓋解剖學、臨床知識、遺傳學等多個子領域，為多模型協同生成提供廣泛知識基礎。

多智能體推理生成與驗證（Multi-Agent CoT GenerationValidation）
在該階段， CoT Generator 針對每個問題以不同溫度參數進行采樣，共生成 9 條多步推理鏈，覆蓋從直接推斷到深度分析的多層邏輯，隨后由 Verifier 智能體協同完成驗證。這一流程實現了從多模型輸出到結構化、多維驗證的知識融合，確保了生成數據在多樣性與正確性上的平衡，為后續分層精煉與高質量醫學推理數據集的構建奠定了基礎。

分層優化與推理精煉（CoT Pipeline Refinement）
根據 Verifier 驗證后統計到的推理鏈錯誤數量， ReasonMed 設計了 Easy / Medium / Difficult 三條 Pipeline：

Easy Pipeline（9 條推理鏈中有 0–4 個錯誤）：對于驗證通過率高的問題，直接由 Quality Ranker 選出 Top-2 優質 CoT 作為最終樣本；
Medium Pipeline（9 條推理鏈中有 5–7 個錯誤）：存在部分邏輯或事實性錯誤的問題，調用 Error Refiner 基于 Verifier 的反饋進行針對性修正與細粒度補充，強化邏輯完整性；
Difficult Pipeline（9 條推理鏈中有 8–9 個錯誤）：錯誤率極高，則調用更強模型（GPT-o1）重新生成完整推理鏈，相當于由專家重新診斷并開具「二次報告」。該分層機制顯著提升了數據一致性與可靠性。通過在不同難度層面引入差異化處理， ReasonMed 成功在保持高精度的同時，將整體數據構建成本降低約 73% ，實現高質量與低成本的統一。
質量評估與數據匯總
我們通過 Score Evaluator ，基于邏輯連貫性（coherence）、醫學事實一致性（factual fidelity）、選項分析完整性（option analysis）等方面對樣本進行 0–10 分量化評分，驗證各階段精煉帶來的質量提升。

經過這一全流程篩選與優化后，最終形成 37 萬條高質量醫學推理樣本（ReasonMed370K），用于后續模型訓練與評估。基于同樣的評分邏輯，我們也對比了生成的數據和當前公開醫學推理數據的質量：

結果表明， ReasonMed 在評分均值上顯著優于現有公開數據集，驗證了 ReasonMed 框架的有效性。

為了進一步分析「顯式推理」與「總結式回答」等不同的思維模式在醫學大模型訓練中的貢獻，我們從同一數據源中抽取并拆分出三個變體：

CoTMed370K 保留原始的詳細推理軌跡，重點訓練模型復現多步推理過程與思維邏輯，使模型學習復雜醫學推理的鏈式結構；
ResponseMed370K 僅保留由 Response Summarizer 生成的精煉結論部分，用于訓練模型在保留關鍵信息的同時生成簡潔、臨床友好的回答。
ReasonMed370K 包含完整的多步推理鏈以及由多智能體生成的簡明答案（Response）

ReasonMed-7B / 14B 模型效果評估

為了驗證生成數據對于模型構建的貢獻，我們基于 ReasonMed370K/ResponseMed370K/CoTMed370K 在 Qwen2.5-7B 進行了微調構建了三族模型 ReasonMed-7/14B ， ResponseMed-7B 和 CoTMed-7B/14B 。我們和當前的主流醫療/通用模型在 MedQA/MedMCQA/PubMedQA/MMLU 數據集上進行了對比。得到以下結論：

基于 ReasonMed370K 訓練的小模型效果可比甚至超越 70B 級別模型
在多個權威醫學問答基準（包括 PubMedQA、MedMCQA、MMLU-Med）上， ReasonMed-7B 展現了顯著優勢。

其中，在 PubMedQA 上達到 82.0% 的準確率，超過了 LLaMA3.1-70B 的 77.4%；在 MedMCQA 與 MMLU 醫學子集上也表現穩定提升。

進一步擴展至 14B 參數規模后， ReasonMed-14B 的整體準確率達到 72.8% ，相較于 Qwen2.5-14B 提升 3.8%（72.8% vs 69.0%），并在總體性能上超越 Qwen2.5-32B（72.6%），與 LLaMA3.1-70B（72.9%）幾乎持平。

這表明 ReasonMed 的「多智能體生成 + 分層優化」策略具備強大的可擴展性——即便是中小規模模型，也能在醫學推理任務中實現與超大模型相當的表現。

融合推理路徑與總結答案的訓練策略效果最佳
為了分析不同數據類型對模型推理能力的影響，團隊基于同一底座（Qwen2.5-7B）訓練了三個版本：
CoTMed-7B：學習完整推理路徑，強調邏輯鏈條復現；
ResponseMed-7B：僅學習簡明答案，注重輸出的準確性與簡潔性；

ReasonMed-7B：結合推理路徑與總結式答案的混合訓練策略。

結果顯示， ReasonMed-7B 的融合策略效果最佳，在綜合準確率上達 69.6% ，分別超越 CoTMed-7B（69.1%）和 ResponseMed-7B（67.0%）。同時，其生成輸出在邏輯深度與表達簡潔度之間取得了良好平衡，既具可解釋性，又具實用性。

這驗證了 ReasonMed 的核心理念：顯式推理鏈的學習能顯著增強模型的泛化推理能力，而「推理 + 總結」融合策略是醫學 QA 領域更優的訓練路徑。

基于多智能體的分層處理策略顯著降低思維鏈路生成成本，兼顧質量與效率

同時我們也驗證了， ReasonMed 的分層優化機制（Easy / Medium / Difficult Pipeline）在確保數據質量的同時顯著降低了數據構建成本。

若完全依賴最先進的大模型 API 生成 37 萬條復雜推理鏈，成本預計在 16631 美元；而在 ReasonMed 的實際設計中，僅約 2.56% 的樣本進入最高難度流程，需調用更強模型，其余問題均由中等規模模型完成。在這一策略下，項目總成本約 4552 美元（o1 API 推理花費 3595 美元），實現了 70% 以上的成本節省。

這種「難題精修、易題高效」的分層機制，在保證推理鏈質量與一致性的前提下，實現了高性價比的數據構建，為大規模推理數據的可持續生產提供了可復制模板。

項目意義和展望
ReasonMed 項目的推出，為醫學 AI 研究提供了新的范式，其核心價值主要體現在以下幾個方面：
填補醫學推理數據空白：ReasonMed370K 提供了當前業界規模最大、質量最高的開源醫學推理數據集，極大緩解了醫學領域數據匱乏的問題，為后續研究和應用提供了堅實可靠的基礎。
驗證了顯式多步推理在醫療模型的訓練的關鍵作用：通過系統性地驗證顯式推理路徑對模型性能提升的關鍵作用， ReasonMed 明確了知識密集型 AI 的訓練方法論，為未來 AI 模型的研發提供了清晰的實踐指南。
推動「小模型 + 高質量數據」路線：在特定專業領域，小模型搭配高質量數據可顯著超越更大規模模型的性能，可以有效降低了醫療 AI 工具研發的成本門檻。
低成本，標準化的可擴展思維鏈生成框架：ReasonMed 框架可以遷移至其他知識密集領域（如生命科學，材料科學等），為構建特定領域的數據集提供了參考，具有跨領域應用的潛力。

同時， ReasonMed 相關技術也用到了達摩院多模態醫療大模型 Lingshu[1
的構建中。接下來，我們計劃進一步擴展數據覆蓋的深度與廣度，探索如影像診斷、多模態理解、醫學工具調用等更復雜的醫學推理場景。同時，我們也希望通過開放協作，讓更多研究者參與數據完善與模型優化，共同建立一個持續演化、可信可復用的醫學推理生態。

社區反饋
ReasonMed 發布后在社區內引發了積極反響。研究者普遍認為其「多智能體 × 分層調優」策略為高質量推理數據生成提供了新范式，并在 Hugging Face 與社區獲得了廣泛關注。論文發布當天即登上 Hugging Face「Paper of the Day」榜首，并獲得 Hugging Face CEO 在 X 平臺的轉發與推薦，引發了業內研究者與開發者的熱烈討論。

【達摩院推出多智能體框架ReasonMed，打造醫學推理數據生成新范式】
[1
https://huggingface.co/lingshu-medical-mllm

達摩院推出多智能體框架ReasonMed，打造醫學推理數據生成新范式

推薦閱讀

電腦用什么軟件讀電表度數

eclipse怎么保存 eclipse如何保存

怎樣用面包機做面包

筆記本電腦怎么開機按哪個鍵筆記本電腦強制關機快捷鍵

牛肉粿條湯怎么做牛肉粿條湯怎么做好吃

梅花和臘梅花是一種花嗎梅花和臘梅是一種花嗎

四年級的孩子叛逆怎么教育小學四年級孩子叛逆期如何教育

蘋果怎么設置圖標大小蘋果手機圖標怎么變小一點

吃白靈菇上火嗎？白靈菇的營養價值有哪些

圣女果可以美白嗎圣女果能不能美白

移栽梅花多久能生根

狼人怎么折

我的書和我五年級作文的故事

義烏招聘，義烏英才網義烏人才網招聘義烏最大的人才網是哪個

AI保護在哪里,如何保護企業數據的安全

ps用盜版什么后果，使用破解軟件和盜版軟件有什么危害嗎