Hinton夢想的AI醫生要來了,斯坦福哈佛實測:o1以78%正確率超人類

Hinton夢想的AI醫生要來了,斯坦福哈佛實測:o1以78%正確率超人類

文章圖片

Hinton夢想的AI醫生要來了,斯坦福哈佛實測:o1以78%正確率超人類

文章圖片

Hinton夢想的AI醫生要來了,斯坦福哈佛實測:o1以78%正確率超人類

文章圖片

Hinton夢想的AI醫生要來了,斯坦福哈佛實測:o1以78%正確率超人類

文章圖片

Hinton夢想的AI醫生要來了,斯坦福哈佛實測:o1以78%正確率超人類

文章圖片

Hinton夢想的AI醫生要來了,斯坦福哈佛實測:o1以78%正確率超人類

AI正在顛覆醫療領域!哈佛、斯坦福等頂尖學術醫療中心的研究表明 , OpenAI的o1-preview在診斷推理任務中全面超越人類醫生 。 從新英格蘭醫學雜志的臨床病例到真實急診室場景 , o1不僅精準識別疾病 , 還在關鍵時刻提供可靠的第二意見 。
AI醫生的時代正在到來!
哈佛、斯坦福等學術醫療中心的醫生發布重磅論文 , 測試了OpenAI o1-preview在醫療推理和診斷任務中的表現 。
結果表明 , 在所有的實驗中 , 無論是臨床案例還是急診室的第二意見 , o1-preview的表現都全面超出人類醫生!
論文地址:https://arxiv.org/pdf/2412.10849
文章中 , 研究團隊全面評估了o1-preview與數百名醫生表現的對比 。
此外 , 他們還在波士頓一所大型學術三級急診中心隨機抽取患者 , 采用盲評方式 , 把大模型給出的「第二診療意見」與專家醫生的診斷進行對比 。

實驗結果驚人團隊首先使用《新英格蘭醫學雜志》(NEJM)發表的臨床病例討論(CPCs)來評估o1-preview 。
兩位醫生對o1-preview給出的診斷質量評價高度一致——在143個病例中有120例觀點相同(84%) 。
o1-preview在近八成病例(78.3%)中都把正確診斷列進了它的「待選清單」(圖 1) 。
如果只看它給出的第一個診斷 , 有52%一擊即中 。
另外 , 無論是在預訓練數據截止點之前還是之后 , 模型的表現沒有明顯差異:截止點前準確率為79.8% , 截止點后為73.5% 。
在之前的用GPT-4評估的70個病例中 , o1-preview在88.6%的病例中給出了完全正確或非常接近的診斷 , 相比之下GPT-4為72.9%(圖2) 。
接下來 , 研究團隊評估了o1-preview在NEJM CPC病例中選擇下一步診斷檢查的能力 。
兩位醫生對o1-preview提出的檢查方案評分 。 在87.5%的病例中 , o1-preview選擇了正確的檢查;另外11%的病例中 , 方案被兩位醫生視為「有幫助」;僅1.5%的病例中被認為「無幫助」(圖3) 。

推理表現研究團隊選取了NEJM Healer課程中的20個臨床病例 , NEJM Healer病例是一種面向臨床推理評估的虛擬患者就診場景 。
在經過修訂的IDEA(R-IDEA , 一套驗證過的10分量表 , 用來評估臨床推理記錄的四個核心維度)評分上 , 兩位評審醫生的意見高度一致——在80份記錄里有79份達成一致 。
在80份記錄中 , o1-preview有78份拿到了R-IDEA滿分 。 它的成績顯著領先于GPT-4 (47/80 , p
團隊還統計了o1-preview在初始分診階段覆蓋「絕不能漏診」病因的比例(圖4B) 。 該模型的中位覆蓋率為0.92 , 但與GPT-4、主治醫生或住院醫生相比無顯著差異 。
此外 , 在灰色事項管理案例、標志性診斷案例、診斷概率推理案例中 , o1-preview都比GPT-4、使用GPT-4的醫生及使用常規資源的醫生表現要好 。 (圖5A/B、圖6)

急診案例研究團隊比較了o1、GPT-4o和兩位主治醫師在診斷疾病方面的能力 。
他們選取了貝斯以色列女執事醫療中心的79個病例 , 并將診斷過程分為三個關鍵節點:急診室初步分診、急診室醫生診斷 , 以及轉入普通病房或重癥監護室時的診斷 。
總的來說 , o1的表現比4o和兩位專家醫生都要好 。
這個評估是由另外兩位醫生進行的 , 他們事先都不知道自己評估的診斷結果是來自人類醫生還是AI 。
這種「盲評」很成功:一位評估醫生猜對診斷來源(AI還是人類)的準確率只有 14.8%(83.5%的情況表示「無法判斷」) , 另一位醫生則只有 2.7%(84.6%的情況表示「無法判斷」) 。
在每一個診斷節點上 , o1的表現要么優于兩位醫生和4o , 要么與他們持平 。
尤其是在第一個診斷節點——急診室初步分診時 , 表現差異最為明顯 。 在這個階段 , 關于患者的信息最少 , 但做出正確診斷的緊迫性卻最高 。
o1在初步分診中識別出完全正確或非常接近的診斷的比例為65.8% , 急診醫生階段為69.6% , ICU階段為79.7% , 均超過兩位醫生(醫生1:54.4%、60.8%、75.9%;醫生2:48.1%、50.6%、68.4%) 。

o1表現超越醫生總的來說 , o1在所有實驗中都展現了超越人類的表現 。 尤其是在急診科使用真實且非結構化的臨床數據進行真實病例診斷時 , o1的表現超越了專業醫生 。
隨著可用信息的增加 , o1、4o和人類醫生的診斷能力均有所提升 。
然而 , 兩個模型的表現始終優于人類 , 尤其是在信息量較少的情況下 , o1的優勢最為明顯 。
對于該論文的研究成果 , 沃頓教授Ethan Mollick認為 , 醫生應該使用AI來獲取診斷的「第二意見」 。
他們可以選擇是否采納AI的建議 , 但不使用AI「越來越像自愿放棄一種能幫助患者的重要工具 。 」
本文作者之一 , 醫學博士Liam McCoy也表示稱 , AI尤其適合執行鑒別診斷的任務 。 這類任務富有創造性 , 且高度依賴聯想 。
不像敲定最終診斷結果那樣 , 需要依賴「世界模型」或無懈可擊的推理能力 。
o1-preview的突破表明 , AI不僅能輔助醫生 , 還可能重塑醫療診斷流程 , 未來或將廣泛應用于臨床實踐 。
正如沃頓教授Ethan Mollick所言 , 拒絕AI輔助如同「放棄重要工具」 。 但這場變革的核心 , 或許不在于誰更優秀 , 而在于如何讓人類醫生的經驗與AI的精準形成合力 。
參考資料:
https://x.com/emollick/status/1925362565946786206
【Hinton夢想的AI醫生要來了,斯坦福哈佛實測:o1以78%正確率超人類】https://arxiv.org/pdf/2412.10849

    推薦閱讀