
文章圖片
四倍 , AI 醫生的診斷準確率遠超過人類醫生 。
這可能有點難以置信 , 但微軟人工智能團隊日前發布的一項 AI 診斷協調系統 MAI-DxO(MAI Diagnostic Orchestrator)真的做到了 。
它在《新英格蘭醫學雜志》每周發布共計 304 個真實復雜病例上進行了基準測試 。 測試結果顯示 , 準確率達到了85.5% 。
這個基準測試不再是之前光憑借記憶 , 就可以做到的試卷答題 , 而是微軟創建的全新的評測標準 , 「順序診斷基準」(SD Bench) 。 它高度還原了真實診療過程的互動挑戰:
從患者的初步癥狀描述入手 。通過多輪提問 , 選擇各種檢驗檢查 , 逐步手機病情信息 。每開一項檢查 , 同時記錄檢查項目的費用;評估必要性和成本 。給出最終診斷 。同樣面對這個 304 個復雜病例 , 微軟選擇了另外 21 位來自美國和英國 , 具有 5 年至 20 年臨床經驗的執業醫生 , 測試結果顯示 , 真實醫生的平均準確率僅為 20% , 這與 「AI 醫生」的差距足足有四倍之大 。
同時 , 與人類醫生相比 , 這個「AI 醫生」還少開了很多不必要的檢查 , 減少了 20%-70% 的診斷成本 。
順序診斷基準測試介紹圖 , 「守門人」回應來自診斷代理的信息請求 , 評估模型則評估診斷代理的最終診斷與病例報告準確度 。
MAI-DxO 究竟是如何做到人類醫生的準確率四倍之高呢 , 它不是一個新出現的大語言模型 , 它也不依賴某個單一的模型 。
MAI-DxO 是一個模擬現實中多名醫生合作診斷過程的系統 。 得益于當前大語言模型的持續發展 , 在 MAI-DxO 系統中 , 有不同的語言模型去扮演五種不同的醫療角色 。
這些醫療角色包括推測各種結果的假設醫生、選擇醫生、質疑當前診斷假設的挑戰醫生、避免不必要檢查的成本管理醫生、以及確保診斷步驟和選擇邏輯一致的檢查表醫生 。
這些「醫生」協作工作 , 充分地模擬了人類醫生團隊的工作流程 , 還彌補了單一 AI 模型在復雜診斷中可能出現的缺陷 。
MAI-DxO 系統概覽圖
如上圖描述的系統概覽圖所示 , MAI-DxO 完全模擬了我們去醫院看病的流程 。
首先從問診開始 , MAIN-DxO 會得到一個簡短的臨床小故事 , 通常為 2-3 句話 , 包含病例的基本情況 。接著 , MAI-DxO 會開始總結患者的主要訴求 , 選擇下一步操作 , 是繼續向患者提問 , 還是申請開檢查 。每開一項檢查會計算檢查費用 , 同時持續進行多輪互動 , 直到給出最后診斷結果 。在測試過程中 , MAI-DxO 利用 o4-mini 和專業醫生設置了一個「守門人」 , 確保系統給 AI 的信息是與正常醫生在問診和臨床上能夠得到的信息一樣 。
MAI-DxO 的出現 , 為大語言模型在醫療診斷上取得明顯的性能提升 。 微軟測試了來自 OpenAI、Gemini、Claude、Grok、DeepSeek 以及 Llama 系列的不同模型 , 表現均優于僅使用單一的 AI 模型 , 而表現最好的組合是 MAI-DxO 與 OpenAI 的 o3 配對 。
由于不受大語言模型的限制 , MAI-DxO 還能夠在將來有更好的模型出現時 , 同步適配 。
不同人工智能模型的準確性和每例平均診斷測試成本對比
盡管看起來 「AI 醫生」已經有模有樣 , 不過 AI 要真正做一個好醫生可不是那么容易的 。
微軟在該項目論文最后提到 , 這次的研究存在顯著局限性 , 包括像參與對比實驗的 21 位醫生并沒有獲得同行的討論協助、參考書籍以及生成式 AI 等資源 。 此外 , 微軟這次實驗也僅僅只討論了最具挑戰性的病例難題 , 而對我們一般的日常性疾病診斷沒有做進一步的測試 。
【微軟 AI 診斷準確率超人類醫生4倍,以后看病前先問問它?】微軟強調 AI 不會取代醫生 , 它將成為醫生與患者共同的助手 。
但就是這個醫生和患者共同的助手 , 也持續地吸引著全世界范圍的關注;早在今年 3 月 , 微軟就發布了醫療界首個用于臨床工作流程的 AI 助手 Microsoft Dragon Copilot , 它能幫助醫生更好的整理病例的臨床文件 。
IBM 推出 IBM Watson Health 醫療人工智能平臺、谷歌的 DeepMind、以及英偉達的 NVIDIA Clara 等 , 都正從導診、問診、病理等醫療場景中帶來新的變革 。
前段時間 , 阿里達摩院也發布了全球首個胃癌影像篩查 AI 模型 DAMO GRAPE , 首次利用平掃 CT 影像結合深度學習識別早期胃癌病灶 。
華為今年才組建組建醫療衛生軍團 , 上周也聯合瑞金醫院 , 宣布開源 RuiPath 病理模型 , 具備臨床驗證能力 , 覆蓋肺癌等 7 個常見癌種 。
醫學需要極高的精準度 , 0.01% 的失誤也有可能造成嚴重的后果 , 它完全不同于程序員寫代碼時出現的 bug 。
MAI-DxO 模擬真實問診的過程 , 看起來這條 AI 醫療之路越來越清晰 。
從百度問診 , 到 ChatGPT 問診 , 我想未來除了拿著普通醫院的檢查結果 , 查醫院排行榜 , 付費問在線醫生 , 還可以先看看這個「AI 醫生」 。
#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr) , 更多精彩內容第一時間為您奉上 。
愛范兒|原文鏈接· ·新浪微博
推薦閱讀
- 微軟推遲Windows 12發布,全力籌備Windows 11 25H2更新
- 構建高準確率RAG系統,從語料質量與拆分策略做起
- Windows 12再等至少一年!微軟官宣Windows 11新版本
- 微軟下一代AI芯片推遲至2026年量產
- 微軟推出深度視頻探索智能體,登頂多個長視頻理解基準
- 獨家揭秘OpenAI核心文件:AGI五級突破實錘,微軟130億投資或打水漂
- 微軟宣稱Win11比Win10快2.3倍!結果是新電腦VS. 9年前老爺機
- 微軟宣稱Windows 11比Windows 10速度提高2.3倍
- 不到3000元,微軟聯合Meta推出Quest 3S Xbox
- 微軟Xbox部門啟動第四輪大規模裁員 重組風暴席卷游戲業務
