AI能給你看病嗎?

AI能給你看病嗎?

文章圖片

AI能給你看病嗎?

(來源:麻省理工科技評論)

AI 健康發展正盛 。 近日 , 微軟在旗下產品 Copilot 中推出了子模塊 Copilot Health , 用戶可以在這個新板塊中接入自己的醫療記錄 , 并就健康問題進行提問;幾天前 , 亞馬遜宣布此前僅限 One Medical 會員使用的 Health AI 將向公眾全面開放;同時 , 這些產品加入了 OpenAI 今年 1 月發布的 ChatGPT Health 以及 Anthropic 的 Claude 的行列 。

面向大眾的健康 AI 已經正式成為一股趨勢 , 市場對提供健康建議的聊天機器人有明確的需求 , 因為很多人難以通過現有醫療體系獲得幫助;一些研究也表明 , 當前的大語言模型能夠給出安全且有用的建議 。 但研究人員表示 , 這些工具應當在大范圍發布之前接受獨立專家更嚴格的評估 。

在健康這樣的高風險領域 , 信任公司自行評估自家產品可能并不明智 , 尤其是當這些評估結果沒有公開供外部專家審查時 。 即使公司確實在做高質量、嚴謹的研究 , 它們仍然可能存在盲區 , 需要更廣泛的研究界來補充 。

“在你始終需要更多醫療服務的前提下 , 我認為我們確實應該追求每一條可行的路徑 , ”牛津互聯網研究所的博士生安德魯·比恩(Andrew Bean)說 , “在我看來 , 這些模型完全有可能已經到了值得推廣的水平 。 ”

“但是 , ”他補充道 , “評估必須非常嚴格 。 ”


龐大的市場需求

在開發者看來 , 這些健康產品之所以現在推出 , 是因為大語言模型確實已經達到了能有效提供醫療建議的水平 。 微軟 AI 健康業務副總裁、前外科醫生多米尼克·金(Dominic King)將 AI 能力的進步列為公司組建健康團隊以及 Copilot Health 問世的核心原因 。 “我們看到生成式 AI 在回答健康問題、給出優質回復方面取得了巨大進步 , ”他說 。

另一個關鍵因素是需求 。 在 Copilot Health 推出前不久 , 微軟發布了一份報告和配套博文 , 詳細說明了人們如何使用 Copilot 獲取健康建議 。 微軟表示 , 每天收到 5000 萬個健康相關問題 , 健康是 Copilot 移動端應用上最熱門的討論話題 。

【AI能給你看病嗎?】其他 AI 公司也注意到了這一趨勢并做出了回應 。 “甚至在我們推出健康產品之前 , 就已經看到人們使用 ChatGPT 咨詢健康問題的速度在飛快增長 , ”OpenAI 健康 AI 團隊負責人卡蘭·辛格爾(Karan Singhal)說 。 (OpenAI 和微軟有長期合作關系 , Copilot 由 OpenAI 的模型驅動 。 )

人們可能只是更喜歡向一個 24 小時在線、不帶評判的機器人傾訴自己的健康問題 。 但很多專家從當前醫療體系的現狀來解讀這一現象 。 “這些工具的存在和它們在整個格局中的定位是有原因的 , ”西奈山醫療系統的首席 AI 官吉里什·納德卡尼(Girish Nadkarni)說 , “因為獲取醫療服務很難 , 對某些人群來說尤其難 。 ”

面向消費者的健康聊天機器人的理想愿景在于 , 它們可以在改善用戶健康的同時 , 減輕醫療系統的壓力 。 這可能包括幫助用戶判斷自己是否需要就醫 , 這項任務被稱為分診 。 如果聊天機器人的分診功能有效 , 那些需要急救的患者可能比原本更早地尋求治療 , 而癥狀較輕的患者則可能安心地在家根據聊天機器人的建議管理癥狀 , 而不是給急診室和診所增加不必要的負擔 。

但納德卡尼和西奈山其他研究人員最近發表的一項廣受討論的研究發現 , ChatGPT Health 有時會對輕癥建議過度治療 , 同時未能識別緊急情況 。 雖然辛格爾和其他一些專家認為該研究的方法論可能無法全面反映 ChatGPT Health 的能力 , 但這項研究引發了人們對這些工具在面向公眾發布前缺乏外部評估的擔憂 。

為本文接受采訪的大多數學術專家都認為 , 考慮到一些人獲取醫療服務的渠道多么有限 , 健康聊天機器人確實可能帶來實際好處 。 但六位專家全部表達了擔憂:這些工具在沒有經過獨立研究者安全評估的情況下就上線了 。 這些工具的一些用途相對無害 , 比如推薦鍛煉計劃或建議用戶向醫生提什么問題 , 但另一些用途有明顯風險 。 分診是其中之一 , 讓聊天機器人提供診斷或治療方案是另一個 。

ChatGPT Health 的界面上有醒目的免責聲明 , 表示該工具不用于診斷或治療;Copilot Health 和亞馬遜 Health AI 的發布公告中也包含類似警告 。 但這些警告很容易被忽略 。 “我們都知道人們會拿它來做診斷和管理病情 , ”貝斯以色列女執事醫療中心的內科醫生和研究員、Google 訪問研究員亞當·羅德曼(Adam Rodman)說 。


嚴謹的醫學測試

這些公司表示 , 他們在測試聊天機器人以確保它們在絕大多數情況下提供安全回復 。 OpenAI 設計并發布了 HealthBench , 這是一個基準測試 , 評估大語言模型在模擬真實健康對話中的表現 。 去年 GPT-5 發布時(GPT-5 同時驅動 ChatGPT Health 和 Copilot Health) , OpenAI 公布了該模型的 HealthBench 得分:它大幅優于此前的 OpenAI 模型 , 但整體表現遠非完美 。

但 HealthBench 這類評估存在局限性 。 比恩和同事上月發表的一項研究發現 , 即使大語言模型能獨立從虛構的書面場景中準確識別出一種疾病 , 一個沒有醫學背景的用戶拿到同樣的場景后借助 LLM 輔助判斷 , 可能只有三分之一的時間能得出正確結論 。 如果用戶缺乏醫學知識 , 他們可能不知道場景中哪些信息(或自身真實經歷中哪些信息)對提問來說是重要的 , 也可能誤讀大語言模型給出的信息 。

比恩說 , 這個表現差距對 OpenAI 的模型來說可能意義重大 。 在最初的 HealthBench 研究中 , OpenAI 報告其模型在需要向用戶追問更多信息的對話中表現相對較差 。 如果情況確實如此 , 那些缺乏足夠醫學知識、無法一開始就為健康聊天機器人提供所需信息的用戶 , 可能會收到無用甚至不準確的建議 。

OpenAI 的辛格爾指出 , 公司當前的 GPT-5 系列模型在最初的 HealthBench 研究進行時尚未發布 , 這一代模型在主動追問信息方面比前代有很大改進 。 不過 OpenAI 也報告稱 , 當前的旗艦模型 GPT-5.4 在主動獲取上下文方面實際上不如早期版本 GPT-5.2 。

比恩認為 , 理想情況下 , 健康聊天機器人應該像他的研究那樣 , 在發布前先經過有真人用戶參與的對照測試 。 這可能是一項艱巨的任務 , 尤其考慮到 AI 領域的發展速度和人類研究所需的時間 。 比恩自己的研究用的還是將近一年前發布的 GPT-4o , 現在已經過時了 。

本月早些時候 , Google 發布了一項符合比恩標準的研究 。 在這項研究中 , 患者先與 Google 的 AMIE(Articulate Medical Intelligence Explorer , 一款尚未公開發布的醫療大語言模型聊天機器人)討論醫療問題 , 然后再去見真人醫生 。 總體來看 , AMIE 的診斷準確率與醫生持平 , 研究人員也未在任何對話中發現重大安全隱患 。

盡管結果令人鼓舞 , Google 并不打算近期發布 AMIE 。 “雖然研究取得了進展 , 但在系統真正應用于診斷和治療之前 , 還有重大局限性需要解決 , 包括在公平性、公正性和安全性測試方面的進一步研究 , ”Google DeepMind 的研究科學家艾倫·卡蒂克薩林加姆(Alan Karthikesalingam)在郵件中寫道 。 Google 最近透露 , 它與 CVS 合作搭建的健康平臺 Health100 將包含一個由旗艦 Gemini 模型驅動的 AI 助手 , 不過這個工具大概不會用于診斷或治療 。

羅德曼與卡蒂克薩林加姆共同主導了 AMIE 研究 , 他并不認為這種耗時數年的大型研究一定是評估 ChatGPT Health 和 Copilot Health 這類聊天機器人的正確方式 。 “臨床試驗的范式在生成式 AI 領域并不總是適用 , 原因很多 , ”他說 , “這就是基準測試討論的意義所在 。 有沒有一個來自可信第三方的基準測試 , 大家都認可它是有意義的 , 各實驗室可以用它來自我約束?”

這里的關鍵是“第三方” 。 無論公司對自家產品做了多全面的評估 , 要完全信任他們的結論仍然很難 。 第三方評估帶來的不僅是公正性 , 如果有多個第三方參與 , 還能幫助彌補盲區 。

OpenAI 的辛格爾表示他非常支持外部評估 。 “我們盡力支持學術社區 , ”他說 , “我們發布 HealthBench 的部分原因就是給學術界和其他模型開發者提供一個高質量評估的范例 。 ”

他說 , 鑒于產出一項高質量評估的成本很高 , 他懷疑任何單個學術實驗室能否做出他所說的“統治一切的唯一評估” 。 但他高度評價了學術團體將已有評估和新評估整合成綜合評估套件的努力 , 比如斯坦福的 MedHELM 框架 , 它在各種醫療任務上對模型進行測試 。 目前 , OpenAI 的 GPT-5 在 MedHELM 上擁有最高分 。

斯坦福大學醫學教授、MedHELM 項目負責人尼加姆·沙阿(Nigam Shah)說 , 這個框架也有局限性 。 它只評估聊天機器人的單輪回復 , 但一個向聊天機器人尋求醫療建議的人可能會進行多輪來回對話 。 他說自己和一些合作者正在著手構建一個能夠評估這類復雜對話的體系 , 但這需要時間和資金 。 “你我完全沒有能力阻止這些公司發布面向健康的產品 , 它們想干嘛就干嘛 , ”他說 , “像我們這樣的人唯一能做的就是想辦法為基準測試找到資金 。 ”

不過 , 醫生自己也會犯錯——對于一個只能偶爾看到醫生的人來說 , 一個隨時可用但偶爾出錯的大語言模型仍然可能比現狀好得多 , 只要它的錯誤不會太嚴重 。

但以目前的證據水平來看 , 我們無法確切判斷現有的這些工具是否真的帶來了改善 , 還是它們的風險超過了收益 。

原文鏈接:
https://www.technologyreview.com/2026/03/30/1134795/there-are-more-ai-health-tools-than-ever-but-how-well-do-they-work/

    推薦閱讀