AI醫療問診產品分析：從評估體系到模型能力的全面解析_互聯網醫療|人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

隨著AI技術在醫療領域的應用逐漸深入， AI醫療問診產品成為行業關注的焦點。本文將深入分析AI醫療問診產品的核心能力，從評估體系到模型性能，探討如何通過多輪對話動態收集病情信息并完成診斷閉環。

AI產品經理與非AI產品經理有哪些不同？

做好「評估」這件事：AI產品的質量在很大程度上取決于其評估的質量。當前模型往往是“評估受限”而不是“智能受限” 。制定合適的評估方法是產品經理的一項關鍵技能，需要能夠定義什么是好的并創建有效的評估，并根據數據分析不斷改進評估。例如，在醫療問診場景中，評估不僅是技術驗證，更是醫療專業性與用戶體驗的雙重校準。
能處理隨機、非確定性的系統問題：AI 模型（如大語言模型）的輸出具有隨機性，產品經理需設計閉環反饋機制（如異常檢測、數據回流）；判斷模型何時偏離軌道并設置哪些防護措施等，并判斷模型何時需要人工介入。
更深入的技術理解：雖然不需要精通技術，但對底層技術和模型能力的更好理解對于有效的產品管理和設計至關重要。這決定了產品經理能否判斷需求能不能做、能做到什么程度、難點在哪、哪些需要產品能力補齊全、需要什么樣的數據及數據量、產品與技術的互補路徑（如用交互設計彌補模型推理漏洞）等等。

【AI醫療問診產品分析：從評估體系到模型能力的全面解析】當然，真正要做好評估，更深一層的關鍵是業務和領域的know-how 。
接下來，我以本人最近在做的AI問診為例，簡單記錄一下我在其中對于評估標準的制定，以及一些具體模型的測評。（在閱讀本實踐篇之前，可以先去看看我的AI醫療產品拆解篇哦~）

醫療問診場景的測評框架與實踐1. 場景定義與評估目標AI 問診模型需通過多輪對話動態收集病情信息，完成 “癥狀詢問→病因分析→診斷建議” 的閉環。核心能力包括：
AI問診模型需要通過與患者進行多輪對話，逐步收集能夠得出患者的疾病診斷的充足信息，并給出最終的疾病診斷。因此需要具備多輪對話、能有效詢問、能追問、能回答用戶問題、能根據用戶的描述判斷疾病并改變對話方向的能力。
我主要從單輪及多輪兩個角度評估模型的性能，以檢查其在單輪對話中問出最具指向性問題的能力和在多輪對話中收集到完整有效病情信息的能力。
1）單輪評估指標：
醫生的問診決策邏輯是：根據癥狀描述，首先確定大致的疾病范圍，并按照最有可能的疾病進行癥狀詢問。基于醫生的認知流，制定出單輪對話的評估指標：

相關性：詢問的內容是否與特定的疾病相關
有用性：詢問的內容是否有利于得出最終診斷
語言質量：對話邏輯清晰，表達流暢自然，能承上啟下。
同理心：與患者互動時表現對情緒的照顧和高度的同理心。

2）整體評估指標
為了對對話能力進行系統評估，提出了五個指標，即主動性、準確性、幫助性和語言質量和同理心。

主動性：當信息不足時，醫生能夠主動、清晰地要求患者提供更多關于癥狀、體檢結果和病史的信息，主動引導患者完成咨詢過程。然而，如果對話中患者的詢問明確、直接且與個人健康狀況無關，主動性評估的相關性較低，則應給予滿分 5 分。
準確性：醫生提供的診斷或建議準確無誤，沒有事實錯誤，不隨意下結論。
幫助性：醫生能夠為患者提供清晰、有指導意義和實用的幫助，具體解決患者的擔憂。
語言質量：對話邏輯清晰，醫生正確理解患者的語義，表達流暢自然。
同理心：與患者互動時表現出全面的解釋和高度的同理心。

2. 常見大模型在問診任務下的測評
總結通用大模型在面對醫療咨詢時往往會在一個單輪中提供詳細的模板式回應，而做不到對患者病情的有效詢問和澄清。少部分會在診斷后進一步詢問其他信息，只有kimi（有聯網+無長思考）不急于給出結論，而是先詢問詳細情況。而我認為這種先收集詳細且具體的信息后再給出診斷結果的醫療問診模式是更合理且更滿足問診場景實際需求的模式。例如，在在線兒科疾病咨詢中，醫生和患者之間的平均互動約為 40 輪，其中一半的輪次用于討論患者的癥狀細節。
在此次測評中，大多數通用大模型在每輪對話中都會給出所有可能發生的疾病，召回率高精準率低，用戶還是無法拿到有效的診斷結果，不符合醫療問診的邏輯。而此次測評中的醫療大模型以及kimi（有聯網+無長思考）能夠在獲取完信息后，給出一個具體的、有針對性的診斷結果，意料之外且非常符合問診場景。
在語言風格和醫患交流體驗上， kimi（有聯網+有長思考）在Think的過程中意識到”我的第一反應是，這并不像是非常嚴重的健康問題，但用戶可能還是有些擔心，所以，我需要提供一些實用的幫助，同時讓語氣保持溫和、有共情，不至于讓對方感到緊張。我還要注意語氣的處理。用戶提到的是一個日常小問題，所以語氣要輕松、自然，同時體現出對他的關注。不能讓他覺得這只是機械的回復，而是有一種“我在聽你說話”的感覺。因此，我會選擇一些貼近生活、容易理解的表達方式，比如用“鼻塞和咳嗽”這樣的詞，而不是過于專業的術語” 。做到了有溫度能共情，注重用戶情緒和體驗。
本文由 @「愛」原生原創發布于人人都是產品經理。未經作者許可，禁止轉載
題圖來自Unsplash ，基于CC0協議