百川智能宣布開源全球最強醫療大模型Baichuan-M3,能力超GPT-5.2

百川智能宣布開源全球最強醫療大模型Baichuan-M3,能力超GPT-5.2

文章圖片

百川智能宣布開源全球最強醫療大模型Baichuan-M3,能力超GPT-5.2

【百川智能宣布開源全球最強醫療大模型Baichuan-M3,能力超GPT-5.2】【TechWeb】1月13日消息 , 百川智能宣布開源新一代醫療大模型 Baichuan-M3 , 該模型具有強推理、低幻覺和端到端的嚴肅問診能力 , 能像醫生一樣主動追問、逐層逼近 , 把關鍵病史和風險信號問出來 , 進而在完整的信息上進行深度醫學推理 。
據悉 , Baichuan-M3在全球最權威的醫療 AI 評測 HealthBench 中以 65.1 分的綜合成績位列全球第一;在專門考驗復雜決策能力的 HealthBench Hard 上 , 也以44.4分的成績奪冠 , 首次在醫療領域實現了對 GPT-5.2 的全面超越 。 在OpenAI引以為傲的低幻覺領域 , M3也實現了超越 , 幻覺率3.5全球最低 。
同時 , 百川智能的醫療應用“百小應”已同步接入 M3 , 面向醫生與患者開放相關能力 。 醫生可借助它推演問診與診療思路 , 患者及家屬也可通過該應用更系統地理解診斷、治療、檢查與預后背后的醫學邏輯 。
Baichuan-M3開源:
Hugging Face 地址:https://huggingface.co/baichuan-inc/Baichuan-M3-235B
GitHub 地址:https://github.com/baichuan-inc/Baichuan-M3-235B
2025年8月 , 百川開源醫療增強大模型 M2 在 HealthBench 上力壓 gpt-oss-120B、DeepSeek-R1 等同期所有開源模型 , 并在 HealthBench Hard 上取得 34.7 分的成績 , 僅次于GPT-5 , 成為全球唯二突破 32 分的模型 。
在M2 發布后的五個月里 , 百川團隊對強化學習系統進行了全面升級 , 將原本以患者模擬器和靜態 Rubric 為主的半動態反饋 , 升級為隨模型能力不斷演進的全動態 Verifier System 。 隨著監督信號持續變細、變難 , 模型得以不斷突破能力上限 , 使 M3 在復雜醫學問題上的表現實現躍遷 , 不僅在 HealthBench 總分上超越 OpenAI 最新模型 GPT-5.2 , 也在 HealthBench Hard 上登頂 , 成為當前全球醫療溝通和推理能力最強的醫療大模型 。
幻覺是這一代大模型技術范式的通病 , 更是AI進入嚴肅醫療的攔路虎 。 在大多數場景幻覺只是體驗問題 , 而在嚴肅醫療場景可導致安全事件 。
百川M3將醫療幻覺抑制前移至模型訓練階段 , 在強化學習過程中將醫學事實一致性作為核心訓練目標之一 , 將“知之為知之 , 不知為不知”直接作用于模型自身能力的形成過程 。 這一新的訓練方法將醫學事實可靠性內化為M3自身的基礎能力 , 使其在不借助任何外部系統的情況下 , 依然能夠基于自身醫學知識進行穩定、可信的作答 。 通過將事實一致性約束融入訓練流程 , M3重構了幻覺抑制的訓練范式 , 在不依賴工具或檢索增強的純模型設置下 , 醫療幻覺率3.5 , 超越GPT-5.2 , 達到全球最低水平 。
除了強推理和低幻覺 , 端到端的問診能力是本次M3最重要的一項突破 。
百川團隊提出了“嚴肅問診范式”與“SCAN原則” , 通過Safety Stratification(安全分層)、Clarity Matters(信息澄清)、AssociationInquiry(關聯追問)與Normative Protocol(規范化輸出) , 將臨床問診中高度依賴經驗的思維過程 , 第一次系統性地“白盒化” 。
圍繞SCAN原則 , 團隊借鑒醫學教育里長期使用的 OSCE 方法 , 聯合 150 多位一線醫生 , 搭建了 SCAN-bench 評測體系 , 該體系以真實臨床經驗作為“標準答案” , 將診療過程拆解為病史采集、輔助檢查、精準診斷三大階段 , 通過動態、多輪的方式進行考核 , 完整模擬醫生從接診到確診的全過程 。 相
比于HealthBench , SCAN-bench是更加全流程端到端的動態評測新范式 。 同時 , 我們還使用原生模型訓練方法取代角色扮演prompt , 針對GRPO無法穩定進行長對話訓練的問題 , 設計了新的 SPAR 算法 , 使模型能夠在有限對話輪次中 , 把臨床真正需要的關鍵問題問全、問準 , 把風險兜住 , 讓輸出經得起復核 。 百川團隊在實驗過程中發現 , 問診準確度每增加2% , 診療結果準確度就會增加1% 。
評測結果顯示 , M3 在SCAN的四個維度均顯著高于人類醫生基線水平 , 并大幅領先于國內外頂尖模型 , 成功構建了從精準的臨床問詢、深度醫學推理到安全可靠決策的閉環 。
百川智能表示 , 從 去年1 月初 OpenAI 發布醫療產品 ChatGPT Health , 到今天 Anthropic 推出 Claude for Healthcare , AI 醫療正在全球范圍內提檔加速 , 競爭也正式進入深水區 。 在這場競速中 , 作為國內唯一專注醫療的大模型企業 , 百川持續突破低幻覺率、端到端問診和復雜臨床推理等核心能力 , 已從“跟隨者”躍遷為行業“引領者”與新范式的“定義者” , 正以硬核實力扛起中國 AI 醫療發展的旗幟 。 (果青)

    推薦閱讀