螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA

螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA

文章圖片

螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA

文章圖片

螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA

文章圖片

螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA

文章圖片

螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA

文章圖片

螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA

文章圖片

螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA

文章圖片

螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA

文章圖片

螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA

文章圖片

螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA

文章圖片

螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
就在醫療AI賽道激戰正酣時 , 一個攪局者低調入場了 。
依舊是螞蟻 , 依舊「SOTA」!
它就是螞蟻集團聯合浙江省衛生健康信息中心、浙江省安診兒醫學人工智能科技有限公司開源的醫療大模型——螞蟻·安診?(AntAngelMed) 。
一經發布就登頂多項醫療基準測試榜單 。

不講什么噱頭 , 也絲毫不喧囂 , 它用數據和排名說話:
在OpenAI發布的HealthBench評測中強勢霸榜開源模型第一 , 超越Baichuan-M2和gpt-oss-120B 。
并橫掃MedAIBench、MedBench等權威醫療榜單 。
它也是迄今為止參數規模最大的開源醫療模型 , 足足有100B 。
應用門檻相當低 , 即使是在中小型醫療機構 , AntAngelMed也足以支撐起實時多輪交互和規模化部署 , 是真正能夠落地跑起來的模型 。

它為行業示范出一條清晰明確的路徑——通過“專、精、穩”三位一體 , 構建通用智能+醫療專長的全棧能力閉環 。
環顧全球 , AI醫療正在成為一場關乎全人類健康的數字化變革 。
李飛飛團隊發布的斯坦福《2025 AI Index Report》中明確指出 , AI已經從實驗室正式走向臨床和實際應用 。
研究表明 , AI比專業醫生在診斷復雜臨床病例時表現更優 , 而AI與醫生的協作往往能取得最佳結果 。 與此同時 , 一系列醫療專用大模型也呈現出持續涌現的態勢 。
螞蟻則在用實際行動全面押注這一賽道 。
開源即登頂多項權威醫療榜單具體來說 , AntAngelMed是螞蟻集團聯合浙江省衛?健康委共同研發的開源醫療大模型 , 從誕生之初就是專為真實醫療場景所設計的 。

這也充分體現在模型的基準測試表現上 。
比如由OpenAI在去年發布的醫療健康領域評估測試集HealthBench , 來自全球60個國家、262名醫?共同構建 , 包含5000種多輪醫療對話場景 , 評分標準涵蓋準確性、完整性、溝通質量、情境感知等多維度 。
在面對DeepSeek-R1、Qwen3、OpenAI GPT-OSS等一眾開源模型 , AntAngelMed以62.5的評分拿下第一 。
更進一步 , 在HealthBench的子集HealthBench-Hard(專為困難場景設計)上 , AntAngelMed同樣穩居榜首 。
這也是繼Baichuan-M2后 , 唯二打破HealthBench-Hard 32分魔咒的開源模型 , 要知道在HealthBench-Hard剛發布時 , 其困難程度一度讓所有模型都拜倒在32分之下 , 甚至當時還有很多頂尖模型都直接掛零 。
AntAngelMed的表現足以證明 , 其在最真實也最容易出錯的復雜醫療環境中 , 仍然能夠表現穩定 , 專業度拉滿 。

在由國家??智能應?中試基地(醫療)·浙江、中國醫學科學院北京協和醫學院、中國信息通信研究院三?共建的權威測評體系MedAIBench中 , AntAngelMed同樣表現突出 , 尤其是在醫療知識問答、醫療倫理安全等多個核心維度上優勢顯著 。
這側面說明 , 模型不是在醫療基礎知識或者臨床診斷這類單一科目上能力強勁 , 而是整體醫療水平均衡 , 短板夠長、專業夠全面 , 容錯率也會更低 。

而在面向中文醫療場景的醫療大模型評測體系MedBench時 , AntAngelMed依舊位列?測榜單第? 。
MedBench擁有36個自主評測集 , 約70萬條樣本 , 最關鍵的是它區別于很多以英文為主的國際benchmark , 更偏向于本土醫療體系 , 在表達上也更貼合國內問診場景 。
AntAngelMed在醫學知識問答、醫學語?理解、醫學語??成、復雜醫學推理、醫療安全與倫理五?核?維度上穩定領先 , 展現出與基層臨床流程的高度適配和無縫集成 。

以日常生活場景為例 , 我們向AntAngelMed提問:
我最近總是頭暈 , 可能是什么原因?

生成速度很快 , 幾乎是秒入秒出 。
仔細看思考過程 , 它首先提及的是要照顧用戶情緒 , 在給出答案時避免引起恐慌 。
nice!這波人性化必須好評 , 畢竟之前每次上網搜癥狀 , 都感覺自己得了絕癥……(慌張.jpg)

在給出具體建議時 , 它也會基于自身醫學知識 , 仔細分析癥狀表現 , 找到最契合的成因 。

結構上邏輯嚴謹 , 從共感→原因分析→建議→鼓勵 , 全方位解決用戶需求 。

最終給出的答案也很專業暖心 , 感覺像是在和一位主任級醫生面對面就診 。

P.S.不過正如AntAngelMed所說 , 癥狀加劇時一定要及時就醫哦~

接著讓AntAngelMed試著解讀專業術語:
我的一份乳腺癌手術病理報告顯示:ER(90%+) , PR(80%+) , HER2(1+) , Ki-67(15%) 。 請解釋這些指標代表什么?這對我的分型和后續治療方案意味著什么?

在腫瘤病理報告中 , 免疫組化(IHC)指標是決定癌癥治療方案(如化療、靶向、免疫治療)的關鍵 , 而指標組合又極其復雜 。
AntAngelMed首先用通俗易懂的語言解釋了這幾個相關指標的含義 , 對于極少接觸專業醫學知識的普通人 , 或者需要查找狹窄領域信息的專業醫生來說 , 頗具參考價值 。

此外 , 它也能準確識別出癌癥亞型 , 給出傾向于激素治療而非靶向治療的參考意見 。

【螞蟻再把醫療AI卷出新高度!螞蟻·安診兒醫療大模型開源即SOTA】值得關注的是 , AntAngelMed還會告知用戶接下來可以去掛哪些科室 , 以及可以詢問主治醫師哪些問題 。
對于本看病困難星人 , 實在是暖暖的、很貼心~

整體感受下來 , AntAngelMed既像一個無微不至的家庭醫生 , 也像一位經驗豐富的專家學者 , 無論是個人、醫生、醫療機構 , 或許都能從中找到最適合的匹配方案 。
既要專業度 , 也要人情味那么AntAngelMed是如何做到的呢?
要厘清思路 , 首先需要回到模型本身 。
AntAngelMed繼承了百靈?模型Ling-flash-2.0的?效混合專家(MoE)架構 , 并建立起三階段的訓練過程:
Step 1:持續預訓練 。
通過持續預訓練 , 大量的臨床指南、醫學文獻等高質量知識被融入進模型參數中 , 讓模型與知識深度融合 , 能夠自然地以專業醫學角度進行思考和表述 。
換言之 , 這是在為醫學AI打下最堅實的地基 。

Step 2:監督微調 。
為了解決真實場景應用的問題 , 在這個階段里 , 指令數據兼具多種類型的表述形式 , 能夠增強模型的通用推理能力 , 學會分步思考和多方案權衡 。
另外 , 模型的人性化也同步得到提升 , 要知道醫患問答不等同于學術問答 , 模型的輸出如何能夠更貼近真實醫生的表達 , 這是關鍵 。
Step 3:GRPO強化學習算法+雙階段強化學習路徑 。
這一步決定模型最終能不能被真實使用 。
GRPO強化學習算法的引入 , 讓模型對復雜任務的處理更加得心應手 , 也能更好地對齊人類價值 , 約束模型安全邊界 。
其中雙階段強化學習又分為兩步:
推理強化學習:保障模型的推理邏輯嚴謹 , 避免中途跳躍 。 通用強化學習:強化模型的行為風格 , 明確指導風險 。最終二者結合 , 共同推動模型朝著專業、克制又能共情的方向演化 。

為了實現模型效率與性能兩手抓 , 在原有的Ling-flash-2.0架構上 , 模型也在一系列核心設計上進行了全面優化 , 比如1/32激活?例、?輔助損失+Sigmoid路由策略、MTP層以及Partial-RoPE等 。
最終幫助模型在參數規模相近的情況下 , 實現了相比Dense架構的7倍效率提升 , 模型計算成本同步得到大幅度降低 。

要讓模型跑得快、跑得穩 , 還需要進行推理加速 。
這里采用的是FP8量化+EAGLE3優化:
前者負責將模型推理時的數值精度壓縮到FP8 , 可顯著減少內存占用以提高計算吞吐;而后者主要用于抑制FP8量化帶來的數值抖動 , 在效率與穩定性中找到最優解 。
最終在真實線上醫療系統的典型負載32并發場景中 , 實現推理吞吐的穩步提升:HumanEval提升71% , GSM8K提升45% , Math-500提升?達94% 。
螞蟻醫療AI布局有跡可循不難看出 , AntAngelMed反映了螞蟻對醫療AI領域的洞察細致入微 , 因為近一線所以懂行業痛點 , 因為有技術所以懂如何改進 。
所以AntAngelMed才能從一眾醫療大模型中脫穎而出 , 做到真實環境中也可以智商情商雙在線 , 而非僅僅局限于基準測試的demo 。
可以說 , AntAngelMed的出現 , 進一步完善了螞蟻在醫療AI領域的布局 。
技術層面 , AntAngelMed可以作為最堅實的基座模型 , 承載起AI在專業場景的規模化落地 , 解決的是螞蟻最底層的技術需求 。
它走的不是通用大模型+Prompt的基礎醫學問答路線 , 而是深度對齊醫學語料、診療流程和醫學推理鏈后 , 完成的專業性更強的診療推理 。

國內外目前也有越來越多模型正在推進這一相似的范式轉移 。
顯然 , 螞蟻已率先預見到這條路線的正確性 , 并沿著它一路狂飆 , 來到了收獲成果的階段 。
產品層面 , 螞蟻也建立起了以面向用戶的AI健康管家、面向醫生的好大夫在線、面向機構的醫療大模型一體機為代表的三端一體產品矩陣 。
從患者、醫生到機構 , 螞蟻的AI產品全方位覆蓋醫療服務體系 , 滿足從下至上每一個角色對AI醫療的切身需求 。
組織層面 , 螞蟻在去年年末 , 完成了一次相當重要的戰略調整 , 將原來的數字醫療健康事業部正式升級為螞蟻健康事業群 。
從事業部升級為事業群 , 這意味著醫療健康不再是螞蟻的補充業務 , 而是正式成為與支付寶、數字支付、財富保險、信貸并列的核心板塊 。
可以預見的是 , 螞蟻未來會將更多資源和精力傾向給AI醫療 , 而AntAngelMed還只是螞蟻正式入局的開端 。
那么為什么要選擇做醫療AI呢?
歸根結底在于通用大模型和專業場景存在鴻溝 , 缺乏相關領域的知識、難以進行復雜任務的決策 , 以及對話交互不等同于有效協同 。
而專業智能體是把通用智能拆解、工程化 , 本質上是將不確定性約束在具體的產業里 , 只有這樣才能實現大模型的生產價值最大化 。

醫療則是其中最具代表性的練兵場 , 醫療的核心不是操作 , 而是智能密度最高的認知、推理和決策 。
對于大模型來說 , 這是一塊試金石 , 能倒逼大模型完成深度優化 , 推動模型向其它基礎領域遷移 。
而這個領域恰好還剛剛起步 , 有足夠大的藍海可以探索 。
與此同時 , 螞蟻也有做醫療AI的底氣 , 多年來螞蟻深耕支付、醫保領域 , 為打通醫療AI提供了堅實的數據基礎 。
由此 , 在這條隱秘的醫療戰線里 , 螞蟻無疑會成為走得最久、也最深的先行者 。
P.S.目前AntAngelMed模型系列已在平臺開源 , 可訪問官方開源倉庫下載使?:
HuggingFace:https://huggingface.co/MedAIBase/AntAngelMedModelScope:https://modelscope.cn/models/MedAIBase/AntAngelMedGitHub: https://github.com/MedAIBase/AntAngelMed
— 完 —
量子位 QbitAI
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀