百川發布最強循證增強大模型M2 Plus,打造“醫生版ChatGPT”

百川發布最強循證增強大模型M2 Plus,打造“醫生版ChatGPT”

文章圖片

百川發布最強循證增強大模型M2 Plus,打造“醫生版ChatGPT”

【TechWeb】10月22日消息 , 百川智能發布循證增強醫療大模型Baichuan-M2 Plus , 同步升級配套應用百小應并開放API 。 這是百川自8月開源Baichuan-M2以來的又一次重要動作 。 評測顯示 , M2 Plus的醫療幻覺率較通用大模型顯著降低 , 相比DeepSeek低約3倍 , 優于美國最火醫療產品OpenEvidence , 可信度比肩資深臨床醫生水準 。
據介紹 , 百川M2 Plus首創六源循證推理(EAR)范式 , 打造“醫生版ChatGPT” , 讓大模型技術在輔助臨床診療場景邁過“敢用、可用”關鍵門檻 , 不僅適合中國醫療環境 , 在美、日、英的醫療評測中均超過OpenEvidence , 代表中國在世界大模型擂臺上再下一城 。
目前 , 接入M2 Plus的百小應已在各大手機應用商店更新 , 成為\"醫生版ChatGPT\" 。 為方便電腦端使用 , 網頁版(ying.ai)也同步上線 。
Baichuan-M2 Plus也提供了標準化API接口 , 醫院信息化部門、互聯網醫療、大健康服務等各類泛醫學機構 , 以及從事醫療AI行業的開發者 , 則可以通過API將循證推理接入服務場景 , 提升AI服務的醫學專業性 。
首創六源循證推理范式
循證醫學(Evidence-Based Medicine EBM)作為現代醫學知識體系的核心范式 , 是確保醫療決策可信的關鍵 。
通用大模型像一個“博學但不可靠”的專家 , 即便有搜索增強 , 也會因為知識來源混雜不符合循證醫學范式 。
百川不僅主動屏蔽了互聯網的非專業信息來源 , 只使用權威來源的醫學證據 , 還在此基礎上構建了從證據、到實踐、再到真實世界反饋六層證據類型的知識體系:
? 原始研究層: 索引海量醫學期刊論文4000余萬篇 , 超過PubMed收錄數量 , 涵蓋基礎與臨床研究成果 , 是循證鏈條的起點;
? 證據綜述層: 整合系統評價和Meta分析等高等級證據 , 提供經過匯總的研究結論;
? 指南規范層: 引入國際和國內權威機構發布的臨床指南、專家共識和行業標準 , 確?;卮鸱献钚乱幏?;
? 實踐知識層: 包含臨床病例報道、一線專家經驗和診療技巧等實用知識 , 貼近醫療實踐場景;
? 公共健康教育層: 匯集權威科普和公共衛生知識 , 如疾病預防宣教、健康指導等內容 , 服務大眾健康教育;
? 監管與真實世界層: 涵蓋藥監部門公告、臨床試驗登記及大規模真實世界研究數據等信息 , 以反映最新的監管動態與人群研究結果;
這個金字塔形的“六源” , 是一層一層演化而來:原始層回答“事實是否存在”、證據層回答“結論是否一致”、指南層回答“行業如何規范”、實踐層回答“醫生應如何決策”、公共層回答“患者應如何理解”、真實世界層回答“是否存在新風險” 。 這讓模型從“生成答案”走向“據實回答” , 實現了從語言可信度到知識可信度的躍升 。
傳統的RAG檢索往往追求“找得到” , 而循證檢索追求“找得準” 。
M2 Plus采用PICO框架(人群Population、干預Intervention、對照Comparison、結局Outcome)思維 , 將查詢轉化為結構化醫學問題 , 并在六源數據庫中進行分層匹配 。 例如:當輸入“老年OSA患者使用CPAP能否改善高血壓?”時 , 系統優先在高等級證據(系統綜述、RCT元分析)中搜索 , 并自動辨識研究質量、樣本量、置信區間與結局指標 。
這種方法克服了通用RAG的兩大缺陷:一是缺乏醫學語義理解(無法區分CPAP療效與依從性分析);二是無法辨別文獻可靠性(新聞與指南同權) 。 在此基礎上 , M2 Plus能夠三步精準鎖定“鐵證”:
第一步 , 智能提問:自動將用戶問題拆解成多個專業的PICO查詢 , 進行“地毯式”證據搜索 , 兼顧精度與廣度 。
第二步 , 精準鎖定:通過自研的Medical Contextual Retrieval技術 , 完整保留文獻的臨床因果鏈 , 避免信息割裂 。
第三步 , 證據排序:內置“審稿人”模型 , 自動評估證據等級(如RCT、Meta分析) , 將最可信、最相關的“鐵證”優先呈現 。
如果說“六源循證”解決了醫療AI知識從哪來的問題 , “PICO智能檢索”解決了如何快速找到正確證據的問題 , 那么最關鍵的一步是如何確保AI在手握證據時 , 不會“自由發揮”、脫離事實胡亂回答 。
百川智能在M2 Plus中引入“循證增強訓練”機制 , 為模型的回答過程“上了一道鎖” , 從根本上改變了其生成邏輯 , 讓它學會“引用 , 而非臆測” 。
首先 , 在訓練中獎勵“引用” , 懲罰“臆測” , 準確引用權威來源(如指南、文獻)時會獲得高分 , 一旦回答脫離了檢索到的證據就會受到懲罰;
其次 , 內置“證據評估器” , 模型被訓練得能夠自動評估檢索到的證據質量 , 優先采納高可信度的信息(如RCT、Meta分析) , 并將其無縫嵌入到推理鏈中;
第三 , 句句有據 , 可回溯、可驗證:經過訓練 , M2-Plus的回答風格發生了根本性改變 , 在輸出關鍵結論時 , 會自動附上參考文獻、指南出處等來源 , 這賦予了AI回答更高的可解釋性與可信賴度 。
幻覺最低 , 達到與人類資深臨床專家同等可信度
這種“循證驅動”的生成邏輯 , 讓M2 Plus幾乎杜絕了無中生有的內容 。 在多場景評測中 , 其綜合幻覺率在所有大模型當中最低 , 相較DeepSeek R1最新版降低3倍 , 顯著領先OpenEvidence 。 不僅如此 , 在病史分析、診斷思路、治療方案等真實復雜的核心醫療場景中 , 達到了與人類資深臨床專家同等的可信度 。
美國執業醫師資格考試(USMLE)是評估臨床知識和推理能力的黃金標準 , 在此項考試中 , M2-Plus取得了驚人的97分 , 不僅遠超人類考生平均水平 , 更與GPT-5的成績持平 , 穩居全球第一梯隊 。
中國執業醫師資格考試(NMLE)及格線為360分 , M2 Plus取得了568分的“碾壓級”成績 , 在所有公開測試的主流大模型中位列第一 。
中國碩士研究生招生考試臨床醫學綜合能力(西醫)考試中 , M2 Plus在此項考試中取得了282分 。 通常 , 能考到280分以上的考生 , 都是協和、北醫等頂尖學府的頭部學霸 。
另外 , 在日本、英國、澳大利亞等國高級醫師職稱晉升考試中 , M2 Plus的準確率85%以上 , 遠超各國及格線 。
【百川發布最強循證增強大模型M2 Plus,打造“醫生版ChatGPT”】百川智能表示 , 通過開源Baichuan-M2、發布Baichuan-M2 plus、百小應 , 開放API , 百川致力于持續提升AI醫療在真實臨床場景的可用性 , 推動大模型在嚴肅醫療場景進入落地可用新階段 。 (果青)

    推薦閱讀