螞蟻再把醫療AI卷出新高度！螞蟻·安診兒醫療大模型開源即SOTA_小米科技|人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI
就在醫療AI賽道激戰正酣時，一個攪局者低調入場了。
依舊是螞蟻，依舊「SOTA」！
它就是螞蟻集團聯合浙江省衛生健康信息中心、浙江省安診兒醫學人工智能科技有限公司開源的醫療大模型——螞蟻·安診?（AntAngelMed）。
一經發布就登頂多項醫療基準測試榜單。

不講什么噱頭，也絲毫不喧囂，它用數據和排名說話：
在OpenAI發布的HealthBench評測中強勢霸榜開源模型第一，超越Baichuan-M2和gpt-oss-120B 。
并橫掃MedAIBench、MedBench等權威醫療榜單。
它也是迄今為止參數規模最大的開源醫療模型，足足有100B 。
應用門檻相當低，即使是在中小型醫療機構， AntAngelMed也足以支撐起實時多輪交互和規模化部署，是真正能夠落地跑起來的模型。

它為行業示范出一條清晰明確的路徑——通過“專、精、穩”三位一體，構建通用智能+醫療專長的全棧能力閉環。
環顧全球， AI醫療正在成為一場關乎全人類健康的數字化變革。
李飛飛團隊發布的斯坦福《2025 AI Index Report》中明確指出， AI已經從實驗室正式走向臨床和實際應用。
研究表明， AI比專業醫生在診斷復雜臨床病例時表現更優，而AI與醫生的協作往往能取得最佳結果。與此同時，一系列醫療專用大模型也呈現出持續涌現的態勢。
螞蟻則在用實際行動全面押注這一賽道。
開源即登頂多項權威醫療榜單具體來說， AntAngelMed是螞蟻集團聯合浙江省衛?健康委共同研發的開源醫療大模型，從誕生之初就是專為真實醫療場景所設計的。

這也充分體現在模型的基準測試表現上。
比如由OpenAI在去年發布的醫療健康領域評估測試集HealthBench ，來自全球60個國家、262名醫?共同構建，包含5000種多輪醫療對話場景，評分標準涵蓋準確性、完整性、溝通質量、情境感知等多維度。
在面對DeepSeek-R1、Qwen3、OpenAI GPT-OSS等一眾開源模型， AntAngelMed以62.5的評分拿下第一。
更進一步，在HealthBench的子集HealthBench-Hard（專為困難場景設計）上， AntAngelMed同樣穩居榜首。
這也是繼Baichuan-M2后，唯二打破HealthBench-Hard 32分魔咒的開源模型，要知道在HealthBench-Hard剛發布時，其困難程度一度讓所有模型都拜倒在32分之下，甚至當時還有很多頂尖模型都直接掛零。
AntAngelMed的表現足以證明，其在最真實也最容易出錯的復雜醫療環境中，仍然能夠表現穩定，專業度拉滿。

在由國家??智能應?中試基地（醫療）·浙江、中國醫學科學院北京協和醫學院、中國信息通信研究院三?共建的權威測評體系MedAIBench中， AntAngelMed同樣表現突出，尤其是在醫療知識問答、醫療倫理安全等多個核心維度上優勢顯著。
這側面說明，模型不是在醫療基礎知識或者臨床診斷這類單一科目上能力強勁，而是整體醫療水平均衡，短板夠長、專業夠全面，容錯率也會更低。

而在面向中文醫療場景的醫療大模型評測體系MedBench時， AntAngelMed依舊位列?測榜單第? 。
MedBench擁有36個自主評測集，約70萬條樣本，最關鍵的是它區別于很多以英文為主的國際benchmark ，更偏向于本土醫療體系，在表達上也更貼合國內問診場景。
AntAngelMed在醫學知識問答、醫學語?理解、醫學語??成、復雜醫學推理、醫療安全與倫理五?核?維度上穩定領先，展現出與基層臨床流程的高度適配和無縫集成。

以日常生活場景為例，我們向AntAngelMed提問：
我最近總是頭暈，可能是什么原因？

生成速度很快，幾乎是秒入秒出。
仔細看思考過程，它首先提及的是要照顧用戶情緒，在給出答案時避免引起恐慌。
nice！這波人性化必須好評，畢竟之前每次上網搜癥狀，都感覺自己得了絕癥……（慌張.jpg）

在給出具體建議時，它也會基于自身醫學知識，仔細分析癥狀表現，找到最契合的成因。

結構上邏輯嚴謹，從共感→原因分析→建議→鼓勵，全方位解決用戶需求。

最終給出的答案也很專業暖心，感覺像是在和一位主任級醫生面對面就診。

P.S.不過正如AntAngelMed所說，癥狀加劇時一定要及時就醫哦～

接著讓AntAngelMed試著解讀專業術語：
我的一份乳腺癌手術病理報告顯示：ER(90%+) ， PR(80%+) ， HER2(1+) ， Ki-67(15%) 。請解釋這些指標代表什么？這對我的分型和后續治療方案意味著什么？

在腫瘤病理報告中，免疫組化（IHC）指標是決定癌癥治療方案（如化療、靶向、免疫治療）的關鍵，而指標組合又極其復雜。
AntAngelMed首先用通俗易懂的語言解釋了這幾個相關指標的含義，對于極少接觸專業醫學知識的普通人，或者需要查找狹窄領域信息的專業醫生來說，頗具參考價值。

此外，它也能準確識別出癌癥亞型，給出傾向于激素治療而非靶向治療的參考意見。

【螞蟻再把醫療AI卷出新高度！螞蟻·安診兒醫療大模型開源即SOTA】值得關注的是， AntAngelMed還會告知用戶接下來可以去掛哪些科室，以及可以詢問主治醫師哪些問題。
對于本看病困難星人，實在是暖暖的、很貼心～

整體感受下來， AntAngelMed既像一個無微不至的家庭醫生，也像一位經驗豐富的專家學者，無論是個人、醫生、醫療機構，或許都能從中找到最適合的匹配方案。
既要專業度，也要人情味那么AntAngelMed是如何做到的呢？
要厘清思路，首先需要回到模型本身。
AntAngelMed繼承了百靈?模型Ling-flash-2.0的?效混合專家（MoE）架構，并建立起三階段的訓練過程：
Step 1：持續預訓練。
通過持續預訓練，大量的臨床指南、醫學文獻等高質量知識被融入進模型參數中，讓模型與知識深度融合，能夠自然地以專業醫學角度進行思考和表述。
換言之，這是在為醫學AI打下最堅實的地基。

Step 2：監督微調。
為了解決真實場景應用的問題，在這個階段里，指令數據兼具多種類型的表述形式，能夠增強模型的通用推理能力，學會分步思考和多方案權衡。
另外，模型的人性化也同步得到提升，要知道醫患問答不等同于學術問答，模型的輸出如何能夠更貼近真實醫生的表達，這是關鍵。
Step 3：GRPO強化學習算法+雙階段強化學習路徑。
這一步決定模型最終能不能被真實使用。
GRPO強化學習算法的引入，讓模型對復雜任務的處理更加得心應手，也能更好地對齊人類價值，約束模型安全邊界。
其中雙階段強化學習又分為兩步：
推理強化學習：保障模型的推理邏輯嚴謹，避免中途跳躍。通用強化學習：強化模型的行為風格，明確指導風險。最終二者結合，共同推動模型朝著專業、克制又能共情的方向演化。

為了實現模型效率與性能兩手抓，在原有的Ling-flash-2.0架構上，模型也在一系列核心設計上進行了全面優化，比如1/32激活?例、?輔助損失+Sigmoid路由策略、MTP層以及Partial-RoPE等。
最終幫助模型在參數規模相近的情況下，實現了相比Dense架構的7倍效率提升，模型計算成本同步得到大幅度降低。

要讓模型跑得快、跑得穩，還需要進行推理加速。
這里采用的是FP8量化+EAGLE3優化：
前者負責將模型推理時的數值精度壓縮到FP8 ，可顯著減少內存占用以提高計算吞吐；而后者主要用于抑制FP8量化帶來的數值抖動，在效率與穩定性中找到最優解。
最終在真實線上醫療系統的典型負載32并發場景中，實現推理吞吐的穩步提升：HumanEval提升71% ， GSM8K提升45% ， Math-500提升?達94% 。
螞蟻醫療AI布局有跡可循不難看出， AntAngelMed反映了螞蟻對醫療AI領域的洞察細致入微，因為近一線所以懂行業痛點，因為有技術所以懂如何改進。
所以AntAngelMed才能從一眾醫療大模型中脫穎而出，做到真實環境中也可以智商情商雙在線，而非僅僅局限于基準測試的demo 。
可以說， AntAngelMed的出現，進一步完善了螞蟻在醫療AI領域的布局。
技術層面， AntAngelMed可以作為最堅實的基座模型，承載起AI在專業場景的規模化落地，解決的是螞蟻最底層的技術需求。
它走的不是通用大模型+Prompt的基礎醫學問答路線，而是深度對齊醫學語料、診療流程和醫學推理鏈后，完成的專業性更強的診療推理。

國內外目前也有越來越多模型正在推進這一相似的范式轉移。
顯然，螞蟻已率先預見到這條路線的正確性，并沿著它一路狂飆，來到了收獲成果的階段。
產品層面，螞蟻也建立起了以面向用戶的AI健康管家、面向醫生的好大夫在線、面向機構的醫療大模型一體機為代表的三端一體產品矩陣。
從患者、醫生到機構，螞蟻的AI產品全方位覆蓋醫療服務體系，滿足從下至上每一個角色對AI醫療的切身需求。
組織層面，螞蟻在去年年末，完成了一次相當重要的戰略調整，將原來的數字醫療健康事業部正式升級為螞蟻健康事業群。
從事業部升級為事業群，這意味著醫療健康不再是螞蟻的補充業務，而是正式成為與支付寶、數字支付、財富保險、信貸并列的核心板塊。
可以預見的是，螞蟻未來會將更多資源和精力傾向給AI醫療，而AntAngelMed還只是螞蟻正式入局的開端。
那么為什么要選擇做醫療AI呢？
歸根結底在于通用大模型和專業場景存在鴻溝，缺乏相關領域的知識、難以進行復雜任務的決策，以及對話交互不等同于有效協同。
而專業智能體是把通用智能拆解、工程化，本質上是將不確定性約束在具體的產業里，只有這樣才能實現大模型的生產價值最大化。

醫療則是其中最具代表性的練兵場，醫療的核心不是操作，而是智能密度最高的認知、推理和決策。
對于大模型來說，這是一塊試金石，能倒逼大模型完成深度優化，推動模型向其它基礎領域遷移。
而這個領域恰好還剛剛起步，有足夠大的藍海可以探索。
與此同時，螞蟻也有做醫療AI的底氣，多年來螞蟻深耕支付、醫保領域，為打通醫療AI提供了堅實的數據基礎。
由此，在這條隱秘的醫療戰線里，螞蟻無疑會成為走得最久、也最深的先行者。
P.S.目前AntAngelMed模型系列已在平臺開源，可訪問官方開源倉庫下載使?：
HuggingFace：https://huggingface.co/MedAIBase/AntAngelMedModelScope：https://modelscope.cn/models/MedAIBase/AntAngelMedGitHub: https://github.com/MedAIBase/AntAngelMed
— 完 —
量子位 QbitAI
關注我們，第一時間獲知前沿科技動態

螞蟻再把醫療AI卷出新高度！螞蟻·安診兒醫療大模型開源即SOTA

推薦閱讀

云漫湖在貴州哪個地方

小米11怎么添加桌面插件

瓜子臉有點胖適合什么發型

大眾怎么設置鎖車聲音

天然蘆薈面膜怎么做

九個必須是什么

拓跋余為什么喜歡未央嗎

覆在古代的含義是什么覆在古代的意思

防電信詐騙心得體會防電信詐騙心得體會范文

貓打什么疫苗貓要打哪些疫苗

breadnbutter,面包黃油是什么顏色

長沙民政職業技術學院官網，了解長沙航空職業技術學院請進

外媒評測iPhone,iphone xs評測

榆次御?Z房價,太原榆次房價漲了還是跌了

讀《濫竽充數》有感濫竽充數讀后感

牛肉怎么醬出來的