清華醫工平臺提出大模型「全周期」醫學能力評測框架MultiCogEval

2026-03-30 西門子算法海爾

文章圖片

文章圖片

文章圖片

本文工作由清華大學電子系醫工交叉平臺吳及教授和劉喜恩助理研究員所領導的醫學自然語言處理團隊，聯合北郵、科大訊飛、無問芯穹等單位共同完成。第一作者周宇軒為清華大學電子工程系博士生，其研究方向聚焦于大模型的醫療垂類能力評估與優化，此前已提出 MultifacetEval（IJCAI 2024）與 PretexEval（ICLR 2025）等醫學知識掌握的多面動態評估框架體系。吳及教授和劉喜恩助理研究員所領導的醫學自然語言處理團隊長期致力于面向真實需求驅動的醫工交叉前沿技術研究與產業變革，曾在 2017 年聯合科大訊飛研發了首個以 456 分高分通過國家臨床執業醫師資格考試綜合筆試測試 AI 引擎 Med3R（Nature Communications 2018）并在全國 400 多個區縣服務于基層醫療；2021 年聯合惠及智醫研發了首個基于全病歷內容分析的智慧醫保 AI 審核引擎，獲得國家醫保局智慧醫保大賽一等獎，并在全國多個省市進行示范應用。

大語言模型（Large Language Models ， LLMs）技術的迅猛發展，正在深刻重塑醫療行業。醫療領域正成為這一前沿技術的 “新戰場” 之一。大模型具備強大的文本理解與生成能力，能夠快速讀取醫學文獻、解讀病歷記錄，甚至基于患者表述生成初步診斷建議，有效輔助醫生提升診斷的準確性與效率。

該技術有望在緩解醫生工作負擔、提升就診效率、優化醫療管理水平等多個方面發揮重要作用。

雖然當前主流大語言模型在 MedQA 等醫療問答基準數據集上已取得 90% 以上的準確率，顯示出強大的語言理解與推理能力，但臨床一線的實際反饋表明，其在真實醫療場景中的應用效果仍不理想，普遍存在 “高分低能” 的問題。

在當前大語言模型不斷取得評測突破的背景下，一個關鍵問題亟需回答：為何其在真實臨床問題中仍難以發揮預期效能？

究其根本，是由于醫學知識覆蓋尚不充分，還是因缺乏有效的臨床應用能力？亦或是在面對復雜、動態的真實場景時，模型在臨床推理與決策層面存在顯著短板？抑或三者皆為限制其實際落地的關鍵因素？

近日，清華大學電子系醫工交叉平臺劉喜恩助理研究員領銜的醫學自然語言處理團隊，聯合多家單位在 ICML 2025 會議上發布最新研究成果，首次提出從醫學知識掌握到臨床問題解決的 “全周期” 大語言模型醫學能力評測框架 ——MultiCogEval 。

該框架覆蓋大模型在不同認知層次下的醫學能力評測，為全面理解大語言模型在醫療領域的能力邊界并洞察其在真實臨床場景中面臨的核心短板，提供了全新視角與分析工具。

論文標題：Evaluating LLMs Across Multi-Cognitive Levels: From Medical Knowledge Mastery to Scenario-Based Problem Solving
論文鏈接：https://openreview.net/pdf?id=sgrJs7dbWC
項目主頁：https://github.com/THUMLP/MultiCogEval

如何構建一個 “全周期” 醫學評測框架？

在大多數國家，醫學生通常需依次完成基礎醫學知識學習、臨床見習以及住院醫師規范化培訓，方可成為一名合格醫生。這一培養路徑契合人類認知能力的發展規律：先通過記憶與理解掌握基礎醫學知識，繼而在典型病例中運用所學進行具體分析，最終具備在真實臨床場景中進行規劃與問題求解的能力。與此相對應，針對臨床能力的評估體系也呈現出分層遞進的結構：從基礎課程考試，到臨床技能測評，再到住培階段的綜合結業考核，逐步覆蓋不同認知層次。

然而，現有醫學大模型評測集的任務設計多聚焦于單一類型（如問答、診斷等），盡管這類評估有助于比較不同模型間的性能差異，但通常僅覆蓋某一特定認知層次，難以全面反映大模型在醫學應用中所需的多層次、全流程能力。部分評測工作嘗試通過引入多種任務來覆蓋不同認知層次，但仍存在兩方面問題：其一，不同任務與認知層次之間缺乏明確對應關系；其二，各任務所涉及醫學知識點的覆蓋范圍、評測指標差異較大，導致跨任務的評估結果缺乏可比性與解釋力。

為應對上述挑戰，研究人員提出了多認知層次醫學評測框架 MultiCogEval 。該框架設計了一系列覆蓋醫學生培養全流程、對應不同認知層次的醫學任務，并結合醫學知識點對齊與評測指標統一等方法，實現了跨認知層次的評估可比性與結果可解釋性，為大模型醫學能力的系統性評估提供了有效支撐。

(圖 1）：人類醫師醫學認知能力發展流程與大模型醫學能力評測的對應關系

MultiCogEval：多認知層次醫學評測框架

受現有醫師培養流程啟發， MultiCogEval 從三個認知層次考察大語言模型的臨床能力：

基礎知識掌握：評測模型對基礎醫學知識的記憶與理解程度。在這一層次上， MultiCogEval 采用現有 LLM Benchmarks 中最常用的多項選擇題（Multiple-choice Questions）進行評測；
綜合知識應用：評測模型綜合運用所學知識解決臨床任務的能力。與多項選擇題相比，真實臨床場景往往可用信息更少、決策空間更大，同時依賴多步推理才能得到結果。為了進一步逼近這些真實臨床場景的應用需求， MultiCogEval 從這三個維度出發，分別設計了三種任務進行評測；
場景問題求解：評測模型在真實臨床場景中主動規劃求解的能力。盡管現有的一些醫學評測集（如 MedQA）涉及對醫學案例的分析與診斷，但這些評測集往往是將所有診斷信息一次性通過題干的形式提供的。與之相比，真實臨床場景則依賴醫師基于已有的診斷信息進行主動決策，通過查體、實驗室檢查、影像學等方式收集診斷信息，最終綜合已有的診斷信息做出診斷。在這一層次上， MultiCogEval 采用一種模擬診斷任務，考察大模型在信息不足條件下主動規劃檢查檢驗，并完成診斷的能力。

(圖 2）：多認知層次醫學評測框架 MultiCogEval

實驗結果：當前大模型的臨床場景問題求解能力仍待加強

基于該評測框架，研究人員對一系列知名大模型進行了系統的評測，觀察到多種 SOTA 大語言模型（如 GPT-4o、DeepSeek-V3 和 Llama3-70B）在低階任務（基礎知識掌握）上表現出色，準確率超過了 60% 。然而，當在中階任務（綜合知識應用）上進行評估時，這些模型的性能均出現了顯著下降（約 20%）。此外，在高階任務（場景問題求解）中，所有模型的表現進一步下滑，其中表現最好的 DeepSeek-V3 的全鏈條診斷準確率也僅為 19.4% 。這表明，盡管當前的大語言模型在基礎醫學知識方面已經具備較強的掌握能力，但在更高認知層級上，尤其是在應對真實醫療場景中的復雜問題時，仍面臨巨大挑戰。

(表 1）：來自多個系列的通用大模型在 MultiCogEval 不同層次上的評測表現

為研究醫學領域 SFT 對大語言模型在不同認知層級上的影響，研究人員進一步對比了醫學大模型與對應基座模型，發現醫學領域 SFT 可以有效提升大模型的低階（基礎知識掌握）與中階（綜合知識應用）臨床能力（最高可達 15%）。然而，在高階任務（場景問題求解）上，它們未能取得顯著進步，有些甚至表現不如基座模型。

(圖 3）：多個醫學專用大模型在 MultiCogEval 不同層次上的評測表現

最后，研究人員進一步研究了推理時擴展（inference-time scaling）在提升大語言模型醫學能力方面的效果。如表 2 所示，推理增強模型在所有認知層級上均優于對應的指令微調模型，且在中階任務上的提升更為顯著（例如 DeepSeek-R1 在中階任務上提升了 23.1% ，而在低階任務上僅提升了 9.8%）。然而，當前的推理增強模型仍然沒有完全解決高階任務，說明現有的模型在真實臨床場景中主動規劃、獲取決策信息進行推理的能力仍然有待進一步提升。

(表 2）：推理增強模型與指令微調模型在不同層次任務上的性能對比

結語

本研究首次提出了多認知層次醫學能力評測框架 MultiCogEval ，系統性地對大語言模型在基礎知識掌握、綜合知識應用和場景問題求解三大認知層級上的醫學能力進行評估。通過構建面向全流程醫學任務的評測體系，并在多個主流通用大模型與醫學專用模型上進行評測與分析，研究團隊發現：

當前大模型在低層級醫學任務表現較為出色，具備較強的醫學知識記憶與理解能力。但隨著任務認知復雜度的提升，模型在中高層級任務上的能力出現明顯下降，尤其是在高階臨床場景下的主動信息獲取與推理決策能力仍顯不足；
醫學領域微調在提升基礎與中階能力方面效果顯著，但對高階任務性能提升有限；
推理時擴展方法能夠顯著增強模型在各個層次醫學任務上的表現，特別是在復雜任務中，但仍不足以完全彌補模型在高階能力方面的短板。

【清華醫工平臺提出大模型「全周期」醫學能力評測框架MultiCogEval】MultiCogEval 的發布為后續的醫學大模型研發與評測奠定了堅實基礎。我們期待該框架能促進大模型在醫學領域的更加穩健、可信、實用的落地，真正助力構建 “可信賴的 AI 醫生” 。

推薦閱讀

上一篇：微軟服務器軟件被曝嚴重安全漏洞黑客借此在全球發起攻擊

下一篇：蘋果即將研發 iOS 27 系統