日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

上交×螞蟻發(fā)布 DiagGym:以世界模型驅(qū)動交互式醫(yī)學(xué)診斷智能體

上交×螞蟻發(fā)布 DiagGym:以世界模型驅(qū)動交互式醫(yī)學(xué)診斷智能體

文章圖片

上交×螞蟻發(fā)布 DiagGym:以世界模型驅(qū)動交互式醫(yī)學(xué)診斷智能體

文章圖片

上交×螞蟻發(fā)布 DiagGym:以世界模型驅(qū)動交互式醫(yī)學(xué)診斷智能體

文章圖片

上交×螞蟻發(fā)布 DiagGym:以世界模型驅(qū)動交互式醫(yī)學(xué)診斷智能體

文章圖片

上交×螞蟻發(fā)布 DiagGym:以世界模型驅(qū)動交互式醫(yī)學(xué)診斷智能體

文章圖片


臨床診斷并非一次性的「快照」 , 而是一場動態(tài)交互、不斷「探案」的推理過程 。 然而 , 當(dāng)下的大模型大多基于靜態(tài)數(shù)據(jù)訓(xùn)練 , 難以掌握真實(shí)診療中充滿不確定性的多輪決策軌跡 。 如何讓AI學(xué)會「追問」、選擇檢查 , 并一步步抽絲剝繭 , 邁向正確診斷?
來自上海交通大學(xué)人工智能學(xué)院、上海人工智能實(shí)驗(yàn)室、螞蟻集團(tuán)與北京大學(xué)的聯(lián)合團(tuán)隊(duì)提出了全新的「環(huán)境—智能體」訓(xùn)練框架 。 他們構(gòu)建了面向醫(yī)學(xué)診斷的世界模型 DiagGym , 并在其中訓(xùn)練可自主演進(jìn)的診斷智能體 DiagAgent 。 在該框架中 , 診斷智能體可以在安全可控的虛擬世界中反復(fù)探索 , 通過與虛擬病人的交互反饋持續(xù)優(yōu)化自身的動態(tài)決策策略 。
研究團(tuán)隊(duì)還設(shè)計(jì)了聚焦診斷推理過程的評測基準(zhǔn) DiagBench 。 該基準(zhǔn)共包含 750 個(gè)病例 , 提供了經(jīng)醫(yī)生驗(yàn)證的中間檢查推薦和最終診斷結(jié)果;其中有 99 個(gè)病例 , 另外由醫(yī)生手工撰寫了 973 條關(guān)于診斷過程的詳細(xì)評估準(zhǔn)則 。 在 DiagBench 上的實(shí)驗(yàn)結(jié)果顯示 , 該框架下訓(xùn)練得到的診斷智能體在 DiagAgent 多輪診斷流程管理能力方面 , 顯著優(yōu)于 DeepSeek、Claude-4 等先進(jìn)模型 。
代碼、模型、測試數(shù)據(jù)均已全部開源 。

  • 論文標(biāo)題:Evolving Diagnostic Agents in a Virtual Clinical Environment
  • 論文鏈接:https://arxiv.org/abs/2510.24654
  • 代碼倉庫:https://github.com/MAGIC-AI4Med/DiagGym
問題背景:
從靜態(tài)問答到動態(tài)決策 ,
AI 診斷需要主動問詢
真實(shí)的臨床診斷是一個(gè)復(fù)雜的多輪決策過程:醫(yī)生需要根據(jù)不完整的初步信息 , 提出一系列可能的鑒別診斷 , 然后主動選取、推薦一系列的檢驗(yàn)檢查「軌跡」來逐步排除或確認(rèn) , 最終在信息充足時(shí)做出診斷 。
然而 , 當(dāng)前多數(shù)醫(yī)療 LLM 的訓(xùn)練范式更像是在做「開卷考試」——它們基于靜態(tài)、完整的病歷數(shù)據(jù)進(jìn)行指令微調(diào) 。 這種模式忽略了診斷過程中的交互性和長期策略性 , 導(dǎo)致模型難以處理真實(shí)診療中的三大核心挑戰(zhàn):
  • 主動探索:如何主動選擇下一步檢查?
  • 動態(tài)調(diào)整:如何根據(jù)新的檢查結(jié)果更新診斷假設(shè)?
  • 適時(shí)收斂:何時(shí)應(yīng)該停止檢查并給出最終診斷?
為了攻克這一難題 , 研究團(tuán)隊(duì)提出了一種創(chuàng)新的端到端智能體訓(xùn)練范式:讓診斷智能體(DiagAgent)在一個(gè)面向醫(yī)學(xué)診斷的世界模型(DiagGym)構(gòu)成的虛擬臨床環(huán)境中 , 自主交互 , 通過接受環(huán)境反饋和最終的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì) , 「摸爬滾打」 , 學(xué)會一套高效、準(zhǔn)確的多輪診斷交互策略 。

圖1. 端到端的診斷智能體訓(xùn)練范式
核心貢獻(xiàn):
虛擬臨床環(huán)境、診斷智能體
與基于 Rubric 的評測基準(zhǔn)
這項(xiàng)工作的核心貢獻(xiàn)可以概括為三個(gè)環(huán)環(huán)相扣的部分:
虛擬臨床環(huán)境:構(gòu)建醫(yī)學(xué)診斷的世界模型 DiagGym
研究團(tuán)隊(duì)基于海量真實(shí)電子病歷(EHR)訓(xùn)練了一個(gè)條件生成模型 。 這個(gè)模型可以根據(jù)患者的初始情況和已有的檢查記錄 , 實(shí)時(shí)生成「下一項(xiàng)檢查的結(jié)果」 。 它構(gòu)建了一個(gè)低成本、安全、可復(fù)現(xiàn)的閉環(huán)虛擬臨床環(huán)境 , 為智能體的交互式訓(xùn)練提供了完美沙盒 。 更重要的是 , 這個(gè)環(huán)境兼具高保真度與高多樣性 , 能模擬從典型到罕見的各種診療路徑 。
主動問詢能力:端到端診斷智能體自主演進(jìn) DiagAgent
在上述的虛擬環(huán)境中 , DiagAgent 通過端到端強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練 。 智能體需要學(xué)習(xí)在每個(gè)決策點(diǎn)做出最優(yōu)選擇——是繼續(xù)建議檢查 , 還是給出最終診斷 , 不斷同診斷學(xué)世界模型進(jìn)行交互 , 獲得當(dāng)前病人信息 。 其目標(biāo)是學(xué)會通過動態(tài)決策 , 主動進(jìn)行檢查推薦 , 并在信息足夠時(shí)做出診斷 , 從而實(shí)現(xiàn)高效動態(tài)問診 。
診斷過程化評測基準(zhǔn):人工檢驗(yàn)診斷軌跡規(guī)范性 DiagBench
為了全面評估診斷智能體的能力 , 團(tuán)隊(duì)構(gòu)建了 DiagBench 。 它不僅包含 750 個(gè)經(jīng)人工檢查的帶有參考診斷路徑的案例 , 更創(chuàng)新性地引入了由醫(yī)生撰寫的 973 條診斷過程評估準(zhǔn)則(rubrics) 。 這些準(zhǔn)則帶有權(quán)重 , 可以細(xì)粒度地評估診斷交互過程的合規(guī)性與質(zhì)量 , 強(qiáng)調(diào)「如何達(dá)成診斷」的過程 , 而不僅僅是「診斷結(jié)果是否正確」 。
實(shí)驗(yàn)結(jié)果顯示 , 無論是在單步?jīng)Q策場景 , 還是在端到端多步診斷決策場景 , 經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的 DiagAgent 均顯著優(yōu)于包括 GPT4o、DeepSeekv3 在內(nèi)的 10 個(gè)代表性大模型 , 以及兩種主流智能體框架 。 這一結(jié)果表明 , 在交互式環(huán)境中進(jìn)行策略學(xué)習(xí) , 能夠賦予模型更強(qiáng)的動態(tài)決策與長期診斷管理能力 。
技術(shù)框架:
訓(xùn)練診斷學(xué)世界模型與端到端
交互式診斷智能體強(qiáng)化學(xué)習(xí)自主演進(jìn)
第一步:DiagGym , 構(gòu)建可交互的診斷世界模型 , 打造虛擬臨床環(huán)境
首先 , 團(tuán)隊(duì)需要一個(gè)能模擬真實(shí)臨床反饋的「沙盒」 。 他們收集了超過 11 萬份患者的真實(shí)診療數(shù)據(jù) , 覆蓋近 5000 種疾病 。 這些數(shù)據(jù)包含了患者基本信息以及按時(shí)間排序的檢查序列(如化驗(yàn)、影像等) 。
【上交×螞蟻發(fā)布 DiagGym:以世界模型驅(qū)動交互式醫(yī)學(xué)診斷智能體】利用這些數(shù)據(jù) , 團(tuán)隊(duì)訓(xùn)練了一個(gè)自回歸語言模型 。 這個(gè)模型的核心能力是條件性文本生成:給定患者基本信息和歷史檢查記錄 , 它能精準(zhǔn)預(yù)測下一項(xiàng)檢查可能出現(xiàn)的結(jié)果 。 這個(gè)模型就是 DiagGym , 一個(gè)能夠?qū)崟r(shí)模擬檢查反饋的診斷學(xué)世界模型 。

圖2:基于臨床序列數(shù)據(jù)的 DiagGym 自回歸語言模型訓(xùn)練范式
第二步:DiagAgent , 端到端強(qiáng)化學(xué)習(xí)驅(qū)動 , 讓診斷智能體自主演進(jìn)
有了「虛擬臨床環(huán)境」 , 就可以開始訓(xùn)練「診斷智能體」了 。 DiagAgent 的訓(xùn)練分為兩個(gè)階段:
  • 冷啟動(Supervised Fine-Tuning):首先 , 使用 1000 條從真實(shí)病歷中抽取的診斷互動軌跡進(jìn)行監(jiān)督微調(diào) , 讓模型學(xué)會基本的交互格式和臨床語言 。
  • 強(qiáng)化學(xué)習(xí)(Reinforcement Learning):接著 , 將智能體放入 DiagGym 中進(jìn)行多輪實(shí)戰(zhàn)演練 。 智能體在環(huán)境中自主決策 , 獲得環(huán)境反饋 , 并根據(jù)最終的獎(jiǎng)勵(lì)進(jìn)行策略優(yōu)化 。
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是關(guān)鍵 , 它由三部分構(gòu)成:
  • 診斷正確性:最終診斷是否準(zhǔn)確?
  • 檢查推薦質(zhì)量:推薦的檢查是否關(guān)鍵、有效?(通過 F1 分?jǐn)?shù)衡量)
  • 交互輪數(shù)懲罰:是否用最少的步驟完成診斷?(鼓勵(lì)高效)
通過 GRPO 強(qiáng)化學(xué)習(xí)算法 , DiagAgent 逐漸學(xué)會了如何在不確定性下進(jìn)行「主動搜證-評估-收斂」 , 將診斷從「單輪問答」升級為「軌跡級決策與策略學(xué)習(xí)」 。

圖3:采用強(qiáng)化學(xué)習(xí)驅(qū)動的DiagAgent策略演進(jìn)的訓(xùn)練架構(gòu)
第三步:DiagBench , 手工打造規(guī)則驅(qū)動新評測基準(zhǔn) , 評估AI診斷交互能力
在評估診斷性能方面 , 不僅需要模型能給出正確答案 , 更要能展示出嚴(yán)謹(jǐn)?shù)脑\斷思路 。 但如何衡量這個(gè)「思路」呢?傳統(tǒng)的自動化指標(biāo)顯然不夠 。
為此 , 研究團(tuán)隊(duì)打造了一套全新的手工打造規(guī)則驅(qū)動的評測基準(zhǔn)——DiagBench , 旨在深入評估AI在多輪診斷交互中的過程質(zhì)量 。 具體步驟如下:
  • 醫(yī)生驗(yàn)證的高質(zhì)量案例庫:基準(zhǔn)包含了 750 個(gè)經(jīng)過醫(yī)生團(tuán)隊(duì)逐一驗(yàn)證的真實(shí)診斷案例 , 每個(gè)案例都附有標(biāo)準(zhǔn)的參考診斷路徑和最終結(jié)果 。
  • 手工打造的核心評估準(zhǔn)則(Rubrics):研究團(tuán)隊(duì)還引入了一套由資深醫(yī)生手工打造的、基于規(guī)則的評估體系 。 研究團(tuán)隊(duì)邀請多位醫(yī)生 , 對 99 個(gè)復(fù)雜病例進(jìn)行深度復(fù)盤 , 將診斷過程中的關(guān)鍵決策點(diǎn)、推理邏輯、以及必須遵守的臨床準(zhǔn)則 , 提煉成 973 條具體的評估細(xì)則(Rubrics) 。
  • 帶權(quán)重的精細(xì)化打分:在此基礎(chǔ)上 , 醫(yī)生還為每一條準(zhǔn)則都附上權(quán)重 , 以區(qū)分其臨床重要性 。
通過這套體系 , DiagBench 對診斷全過程進(jìn)行細(xì)粒度過程審查 , 全面評估其在信息收集、假設(shè)檢驗(yàn)、風(fēng)險(xiǎn)控制等維度的綜合能力 。
實(shí)驗(yàn)結(jié)果:
虛擬環(huán)境與智能體的雙重驗(yàn)證
DiagGym:虛擬環(huán)境有多真實(shí)?
一個(gè)可靠的虛擬環(huán)境是成功訓(xùn)練智能體的前提 。 實(shí)驗(yàn)證明 , DiagGym在多個(gè)維度上都表現(xiàn)出色:
  • 高保真度:DiagGym 在逐步生成檢查結(jié)果時(shí)展現(xiàn)出卓越性能 。 如表 1 所示 , 在逐步生成檢查結(jié)果時(shí) , 其步驟相似度(3.57/5分)和整鏈一致性(96.9%)均遠(yuǎn)超 Qwen2.5-72B 等強(qiáng)基線模型 。 更關(guān)鍵的是 , 根據(jù)醫(yī)生評測結(jié)果(表2) , DiagGym 同樣大幅領(lǐng)先 , 其生成的報(bào)告獲得了 4.49 分的平均相似度和 95.00% 的多數(shù)投票一致性 , 這證明 DiagGym 的結(jié)果更連貫 , 更少出現(xiàn)與病情矛盾的「過度陽性」結(jié)果 , 臨床可信度高 。
  • 高多樣性:生成的檢查結(jié)果分布與真實(shí)數(shù)據(jù)高度對齊 。 如表1所示 , 數(shù)值型 1-Wasserstein 距離僅 0.128 , 同時(shí)保持了接近真實(shí)數(shù)據(jù)的多樣性 , 有效避免了模型模式崩潰 。
  • 高效率:DiagGym 的部署和推理成本極低 。 表 1 數(shù)據(jù)顯示 , 它僅需單卡 A100 即可部署 , 單次生成僅耗時(shí)約 0.52 GPU·s , 而同類任務(wù)若使用 DeepSeek-v3-671B 則需要至少 16 張GPU和超過 62 GPU·s 的算力 。 這為大規(guī)模、高頻次的智能體交互訓(xùn)練提供了可能 。

表1:DiagGym 與基線模型的定量評測結(jié)果 。

表2:DiagGym 與基線模型生成結(jié)果的臨床專家主觀評測結(jié)果 。
DiagAgent:診斷智能體的「醫(yī)術(shù)」如何?
1、單輪能力評測:決策精準(zhǔn)度大幅提升
在單輪能力評測中 , 如圖 4a 所示 , 我們評估了智能體在給定部分病歷、僅需做出下一步?jīng)Q策的能力 。 結(jié)果證明 , DiagAgent 在這種單輪決策場景下展現(xiàn)了壓倒性優(yōu)勢(結(jié)果見圖 4c)
  • 檢查推薦命中率提升 44.03% , 最終診斷準(zhǔn)確率提升 9.34%(相較于次優(yōu)模型) 。
  • DiagAgent-7B 的檢查推薦命中率高達(dá) 72.56% , 而 MedGemma 和 DeepSeek-v3 等強(qiáng)模型僅為 20%-28% 。

圖4:DiagAgent在單輪決策場景下的評估框架與性能對比 。
2、端到端全程診斷評測:過程與結(jié)果雙優(yōu)
在模擬真實(shí)診療、從頭到尾完成診斷的全流程測試中 , 如圖5a 所示 , 模型需要根據(jù)患者信息進(jìn)行多輪問診 , 最終給出診斷 。 DiagAgent 在這一復(fù)雜任務(wù)中再次表現(xiàn)最佳:
  • 核心診斷指標(biāo)全面領(lǐng)先 。 如圖 5b 所示 , DiagAgent-14B 平均交互 6.66 輪 , 檢查推薦F1分?jǐn)?shù)達(dá)到 46.59% , 最終診斷準(zhǔn)確率 61.27% , 均遠(yuǎn)超其他模型 。 相比之下 , 許多大模型基線(如 DeepSeek-v3)傾向于在 2-4 輪內(nèi)草草結(jié)束 , 導(dǎo)致檢查不充分(Recall 較低) , 診斷準(zhǔn)確性也大打折扣 。
  • 過程質(zhì)量獲臨床準(zhǔn)則認(rèn)可 。 我們進(jìn)一步引入醫(yī)生制定的流程化準(zhǔn)則(rubrics)進(jìn)行評估(如圖5c 所示) 。 在圖5d的加權(quán)得分對比中 , DiagAgent-14B的得分比強(qiáng)基線(如Claude-sonnet-4)高出7-8個(gè)百分點(diǎn) 。 這說明它不僅「診斷對」 , 而且「過程好」 , 更好地遵循了關(guān)鍵檢查優(yōu)先、基于證據(jù)收斂等臨床金標(biāo)準(zhǔn) 。

圖5:DiagAgent端到端全程診斷評測框架與結(jié)果 。
消融實(shí)驗(yàn):
訓(xùn)練虛擬環(huán)境支撐強(qiáng)化學(xué)習(xí)
比簡單利用現(xiàn)有樣本進(jìn)行SFT更加高效
框架的成功并非偶然 。 通過一系列消融實(shí)驗(yàn) , 我們深入探究了DiagAgent 成功的關(guān)鍵因素 。 我們的消融實(shí)驗(yàn)結(jié)果如表3所示:
  • 強(qiáng)化學(xué)習(xí)(RL)顯著優(yōu)于監(jiān)督微調(diào)(SFT):在同等模型規(guī)模下 , 由DiagGym 虛擬環(huán)境支撐的強(qiáng)化學(xué)習(xí)策略 , 普遍為模型帶來 10 至 15 個(gè)百分點(diǎn)以上的診斷準(zhǔn)確率增益 。
  • 獎(jiǎng)勵(lì)設(shè)計(jì)是策略優(yōu)化的核心:同時(shí)優(yōu)化「診斷準(zhǔn)確性」和「檢查推薦質(zhì)量」的雙重獎(jiǎng)勵(lì) , 能讓模型在提升最終準(zhǔn)確率的同時(shí) , 大幅改善診斷路徑的合理性 。
  • 強(qiáng)基座模型潛力更大:雖然所有模型都能從RL中獲益 , 但更強(qiáng)的基座模型(如Qwen2.5-14B)能達(dá)到更高的性能上限 。

表3:消融實(shí)驗(yàn)結(jié)果
研究價(jià)值與未來展望
研究價(jià)值
對齊真實(shí)臨床工作流:它將AI診斷從靜態(tài)問答升級為動態(tài)策略學(xué)習(xí) , 讓智能體學(xué)會在不確定性下「主動搜證-評估-收斂」 , 更貼近真實(shí)世界 。
開創(chuàng)「環(huán)境-智能體」閉環(huán)訓(xùn)練范式:DiagGym作為一個(gè)診斷學(xué)世界模型 , 提供了一個(gè)安全、可擴(kuò)展的診斷智能體「訓(xùn)練場」 , 讓智能體系統(tǒng)能自主探索海量診療路徑 , 包括各種非典型的診斷交互軌跡 , 擺脫了舊有監(jiān)督學(xué)習(xí)范式對收集有限、保守的診斷過程數(shù)據(jù)的依賴 。
推動過程化評估:DiagBench首次在診斷交互軌跡上引入了帶權(quán)重的rubrics來衡量「診斷過程」的質(zhì)量 , 推動診斷AI的開發(fā)從「唯結(jié)果論」轉(zhuǎn)向關(guān)注中間決策的合理性 。
局限與展望
模型規(guī)模:當(dāng)前實(shí)驗(yàn)主要基于7B-14B模型 , 未來擴(kuò)展到千億級模型有望進(jìn)一步提升策略的深度和推理的上限 。
任務(wù)范圍:目前聚焦于「診斷」 , 未來可將「治療方案、預(yù)后評估」等環(huán)節(jié)納入虛擬環(huán)境和獎(jiǎng)勵(lì)函數(shù) , 構(gòu)建「診療一體化」的超級智能體 。
環(huán)境擴(kuò)展:DiagGym未來可以加入更多維度的模擬 , 如治療反饋、費(fèi)用/安全約束等 , 構(gòu)建一個(gè)更全面的虛擬臨床系統(tǒng) 。
總結(jié)
這項(xiàng)工作通過「虛擬臨床環(huán)境+端到端強(qiáng)化學(xué)習(xí)」的范式 , 成功地將 LLM 從一個(gè)靜態(tài)的「問答引擎」轉(zhuǎn)變?yōu)橐粋€(gè)能夠進(jìn)行「長期、多輪」診斷管理的「AI醫(yī)生」 。 高保真、低成本的世界模型DiagGym為訓(xùn)練提供了沃土 , 而智能體DiagAgent則在其中學(xué)會了動態(tài)決策的藝術(shù) , 在各項(xiàng)評測中全面領(lǐng)先 。

    推薦閱讀