微軟 AI 診斷準確率超人類醫生4倍，以后看病前先問問它？_工業化|人工智能|上海市

文章圖片

四倍， AI 醫生的診斷準確率遠超過人類醫生。
這可能有點難以置信，但微軟人工智能團隊日前發布的一項 AI 診斷協調系統 MAI-DxO（MAI Diagnostic Orchestrator）真的做到了。
它在《新英格蘭醫學雜志》每周發布共計 304 個真實復雜病例上進行了基準測試。測試結果顯示，準確率達到了85.5% 。
這個基準測試不再是之前光憑借記憶，就可以做到的試卷答題，而是微軟創建的全新的評測標準，「順序診斷基準」（SD Bench）。它高度還原了真實診療過程的互動挑戰：
從患者的初步癥狀描述入手。通過多輪提問，選擇各種檢驗檢查，逐步手機病情信息。每開一項檢查，同時記錄檢查項目的費用；評估必要性和成本。給出最終診斷。同樣面對這個 304 個復雜病例，微軟選擇了另外 21 位來自美國和英國，具有 5 年至 20 年臨床經驗的執業醫生，測試結果顯示，真實醫生的平均準確率僅為 20% ，這與「AI 醫生」的差距足足有四倍之大。
同時，與人類醫生相比，這個「AI 醫生」還少開了很多不必要的檢查，減少了 20%-70% 的診斷成本。
順序診斷基準測試介紹圖，「守門人」回應來自診斷代理的信息請求，評估模型則評估診斷代理的最終診斷與病例報告準確度。
MAI-DxO 究竟是如何做到人類醫生的準確率四倍之高呢，它不是一個新出現的大語言模型，它也不依賴某個單一的模型。
MAI-DxO 是一個模擬現實中多名醫生合作診斷過程的系統。得益于當前大語言模型的持續發展，在 MAI-DxO 系統中，有不同的語言模型去扮演五種不同的醫療角色。
這些醫療角色包括推測各種結果的假設醫生、選擇醫生、質疑當前診斷假設的挑戰醫生、避免不必要檢查的成本管理醫生、以及確保診斷步驟和選擇邏輯一致的檢查表醫生。
這些「醫生」協作工作，充分地模擬了人類醫生團隊的工作流程，還彌補了單一 AI 模型在復雜診斷中可能出現的缺陷。
MAI-DxO 系統概覽圖
如上圖描述的系統概覽圖所示， MAI-DxO 完全模擬了我們去醫院看病的流程。
首先從問診開始， MAIN-DxO 會得到一個簡短的臨床小故事，通常為 2-3 句話，包含病例的基本情況。接著， MAI-DxO 會開始總結患者的主要訴求，選擇下一步操作，是繼續向患者提問，還是申請開檢查。每開一項檢查會計算檢查費用，同時持續進行多輪互動，直到給出最后診斷結果。在測試過程中， MAI-DxO 利用 o4-mini 和專業醫生設置了一個「守門人」，確保系統給 AI 的信息是與正常醫生在問診和臨床上能夠得到的信息一樣。
MAI-DxO 的出現，為大語言模型在醫療診斷上取得明顯的性能提升。微軟測試了來自 OpenAI、Gemini、Claude、Grok、DeepSeek 以及 Llama 系列的不同模型，表現均優于僅使用單一的 AI 模型，而表現最好的組合是 MAI-DxO 與 OpenAI 的 o3 配對。
由于不受大語言模型的限制， MAI-DxO 還能夠在將來有更好的模型出現時，同步適配。
不同人工智能模型的準確性和每例平均診斷測試成本對比
盡管看起來「AI 醫生」已經有模有樣，不過 AI 要真正做一個好醫生可不是那么容易的。
微軟在該項目論文最后提到，這次的研究存在顯著局限性，包括像參與對比實驗的 21 位醫生并沒有獲得同行的討論協助、參考書籍以及生成式 AI 等資源。此外，微軟這次實驗也僅僅只討論了最具挑戰性的病例難題，而對我們一般的日常性疾病診斷沒有做進一步的測試。
【微軟 AI 診斷準確率超人類醫生4倍，以后看病前先問問它？】微軟強調 AI 不會取代醫生，它將成為醫生與患者共同的助手。
但就是這個醫生和患者共同的助手，也持續地吸引著全世界范圍的關注；早在今年 3 月，微軟就發布了醫療界首個用于臨床工作流程的 AI 助手 Microsoft Dragon Copilot ，它能幫助醫生更好的整理病例的臨床文件。
IBM 推出 IBM Watson Health 醫療人工智能平臺、谷歌的 DeepMind、以及英偉達的 NVIDIA Clara 等，都正從導診、問診、病理等醫療場景中帶來新的變革。
前段時間，阿里達摩院也發布了全球首個胃癌影像篩查 AI 模型 DAMO GRAPE ，首次利用平掃 CT 影像結合深度學習識別早期胃癌病灶。
華為今年才組建組建醫療衛生軍團，上周也聯合瑞金醫院，宣布開源 RuiPath 病理模型，具備臨床驗證能力，覆蓋肺癌等 7 個常見癌種。
醫學需要極高的精準度， 0.01% 的失誤也有可能造成嚴重的后果，它完全不同于程序員寫代碼時出現的 bug 。
MAI-DxO 模擬真實問診的過程，看起來這條 AI 醫療之路越來越清晰。
從百度問診，到 ChatGPT 問診，我想未來除了拿著普通醫院的檢查結果，查醫院排行榜，付費問在線醫生，還可以先看看這個「AI 醫生」。
#歡迎關注愛范兒官方微信公眾號：愛范兒（微信號：ifanr），更多精彩內容第一時間為您奉上。
愛范兒|原文鏈接· ·新浪微博

微軟 AI 診斷準確率超人類醫生4倍，以后看病前先問問它？

推薦閱讀

清算報告需要注明的內容有哪一些

惻隱之心仁之端也啥意思

無糖糖漿是什么東西

吃荷蘭豆的好處有哪些荷蘭豆多吃有什么壞處

oppoa95怎么關閉usb調試

艾爾登法環阿根廷區漲價了嗎阿根廷漲價分享

支付寶68元消費券怎么領

海棠花秋季的養殖方法

cs1.5怎么加人機器人快捷鍵

聚乙烯粉料潮濕易交聯嗎

兩個小故事，與生活攜手的文章，直面世俗一角

中國南方與北方具體分界線是怎樣的在供暖問題上，對南方不供暖的介定好象不合理

政府如何彌補市場缺陷,如何彌補市場不足

分享蘋果8p掉幀的具體處理方法。

釣2050斤的魚用什么主線和子線，釣鯉魚用幾號線組

紅瑰寶是紅木嗎