制藥行業AI數據質量危機：垃圾進垃圾出的隱患

2026-04-11 人工智能 ai

人工智能正在重塑各行各業，但在生命科學領域，其影響尤為重要。制藥公司看到了AI加速藥物發現、簡化臨床試驗、降低開發成本（通常超過20億美元）的潛力。
然而，盡管充滿熱情，大多數試點項目仍難以取得成果。據MIT統計，企業中95%的AI項目都以失敗告終，往往是因為模型接收了質量差或不相關的數據。雖然制藥行業的確切數字有待商榷，但期望落空的模式是不可否認的。
這些失敗的共同點并非算法的復雜程度，而是它們所使用數據的質量。在制藥領域， \"垃圾進，垃圾出\"不僅意味著時間和金錢的浪費，還可能產生帶有監管、倫理甚至患者安全后果的誤導性輸出。這種隱藏的數據危機是該行業AI擴展的根本障礙。
隱藏的數據危機表現形式
當制藥領導者談論數據問題時，他們指的不僅僅是質量差的信息。這場危機更為廣泛：
不相關或未經整理的數據
AI試點中使用的大部分數據來自公共資源或分散在內部孤島中。沒有整理和背景信息，輸出缺乏臨床相關性。
暗數據
大量的臨床試驗結果、患者病史和影像數據仍鎖定在無法訪問的格式或傳統系統中。
輸入中烘焙的偏見
即使是善意的數據收集也可能無意中編碼噪音。一個被廣泛引用的例子是\"尺子問題\" ，一個訓練用于識別惡性黑色素瘤的AI模型錯誤地學會將診斷照片中尺子的存在（而非腫瘤特征）與惡性腫瘤聯系起來。
這些陷阱說明了AI在缺乏臨床視角時，會完全按照設計目的去尋找相關性。但如果沒有背景指導，這些相關性可能具有危險的誤導性。
為什么制藥行業容錯空間更小
在消費行業，失敗的AI試點可能意味著誤導的營銷活動或表現不佳的聊天機器人。在制藥行業，失敗的后果影響更為深遠。臨床試驗已經是該行業最昂貴、最耗時的工作之一。即使六個月的延誤也可能造成數億美元的收入損失。
此外，該行業在嚴格的監管監督下運營。臨床上無效的輸出不僅無用，還可能不合規。與零售或制造業不同， \"快速行動，打破常規\"的容忍度很低。制藥公司必須謹慎行動并證明一切。
企業級AI需要經臨床整理的數據
\"企業級\"已成為AI領域的流行詞，但在監管市場中，其含義超越了可擴展性和云集成。在制藥行業，企業級AI意味著滿足三個標準。這意味著使用經臨床整理的輸入，數據經過清理、背景化并以臨床思維結構化。這需要擺脫抓取公共數據集的做法，轉而專注于從試驗歷史和真實世界證據創建專有的高質量語料庫。這也意味著應用強有力的治理。 AI項目需要在達到技術基準的同時滿足包括FDA和EMA要求在內的合規框架，關注數據血統、可審計性和可重現性。
最終標準是與臨床專業知識的一致性。最有前景的模型反映了經驗豐富研究人員的推理，而非作為統計黑盒運行。在臨床監督指導下的大語言模型可以避免黑色素瘤\"尺子問題\"等誤導性捷徑。沒有經臨床整理的數據，制藥AI就會成為負擔而非優勢。
數據問題在真實試點中的表現
制藥公司通常只有在試點進行中才認識到數據問題。模型可能產生表面上令人信服的輸出，但經臨床審查后證明不相關或具有誤導性。例如，在影像分析中，模型可能識別照明或標注偽影而非真正的生物特征。在患者選擇中，歷史數據集的偏見可能使試驗招募偏向不具代表性的人群，損害試驗有效性。
這就是為什么許多試點在概念驗證階段停滯不前。底層算法可能有效，但數據整理不足以產生既具臨床可操作性又符合監管要求的結果。
混合模式：初創企業加內部整理
面對這些挑戰，許多制藥領導者面臨構建與合作的兩難選擇。他們應該內部開發AI能力還是尋求初創企業創新？實際上，答案往往是混合的。初創企業帶來尖端技術并吸引大型制藥企業難以招募的AI工程人才。制藥現有企業帶來專有數據集、監管專業知識和擴展基礎設施。
最成功的合作結合了這些優勢。與制藥公司合作處理內部數據集而非僅依賴公共數據的初創企業，往往能提供更相關的輸出。相反，期望初創企業以有限資源解決一切的制藥企業可能面臨失望。
在擁擠的初創企業環境中降低合作風險
制藥AI初創企業生態系統爆發式增長，過去五年推出了100多家公司，目標涵蓋從分子發現到試驗招募的各個方面。這既創造了機會也帶來了噪音。制藥領導者可以通過以下方式降低合作風險：
評估可擴展性
有前景的\"兩人車庫初創企業\"可能有創新想法，但缺乏負責任處理敏感數據的資源。合作需要對技術和組織成熟度都有信心。
驗證投資者
由可信、資金充足的投資者支持的初創企業更能在長期時間線和監管障礙中生存。
明確邊界試點
圍繞特定、明確定義的用例構建合作可以在測試可行性時減少風險。
建立內部能力：首席AI官的興起
另一個值得注意的趨勢是大型制藥企業中首席AI官的出現。這些領導者通常從傳統生命科學外招募，帶來數據科學專業知識并擔任AI采用的內部倡導者。他們的角色不僅是評估合作伙伴關系，還要確保內部數據集得到整理、治理和可用。這種制度投資表明AI不再被視為實驗性副業項目，而是正在成為核心能力。
成功的樣子
當制藥企業有效管理其數據時，益處遍及開發和患者護理的每個階段。將臨床試驗時間縮短僅六個月就能為每種藥物節省數億美元并加速患者獲得救命療法。更好的患者分層可以改善試驗結果、減少流失并使結果更具普遍性。
除了試驗，經過整理的數據還能讓AI在開發早期預測不良事件、在更高合規性下優化制造過程，以及為現有藥物識別新適應癥或患者亞群。
經過整理的、臨床相關的數據是制藥AI從承諾到影響的橋梁。今天投資解決數據挑戰的公司將是明天更快、更安全、更高效地提供突破性成果的公司。
關于作者
Erik Terjesen是Silicon Foundry（凱爾尼公司）的董事總經理。他的職業生涯致力于將清潔技術研究轉化為使世界更清潔、更高效的商業產品。在Silicon Foundry ，他就清潔技術采用、商業化和投資策略為組織提供建議。在此之前，他在Ionic Materials工作，協商合作伙伴關系以將公司新穎的固體聚合物技術推向電池應用市場。職業生涯早期，他在HarbourVest Partners獲得風險投資經驗，在Robertson Stephens獲得投資銀行經驗。 Terjesen擁有哈佛學士學位和沃頓MBA學位。工作之余，他在圣地亞哥與家人共度時光，專注于電子音樂制作愛好。
Q&A
Q1：制藥行業AI項目失敗率為什么這么高？
A：據MIT統計，企業中95%的AI項目都以失敗告終，主要是因為模型接收了質量差或不相關的數據。在制藥領域， \"垃圾進，垃圾出\"不僅浪費時間金錢，還可能產生帶有監管、倫理甚至患者安全后果的誤導性輸出。
Q2：什么是制藥AI中的\"尺子問題\"？
【制藥行業AI數據質量危機：垃圾進垃圾出的隱患】A：\"尺子問題\"是一個經典案例， AI模型在識別惡性黑色素瘤時，錯誤地學會將診斷照片中尺子的存在（而非腫瘤特征）與惡性腫瘤聯系起來。這說明AI在缺乏臨床視角時會尋找錯誤的相關性，產生危險的誤導結果。
Q3：制藥企業如何建立企業級AI能力？
A：需要滿足三個標準：使用經臨床整理的數據，確保數據清理、背景化并以臨床思維結構化；應用強有力的治理框架滿足FDA和EMA等監管要求；與臨床專業知識保持一致，讓模型反映經驗豐富研究人員的推理而非統計黑盒。

推薦閱讀

上一篇：Meta「內戰」升級：做「神一般的AI」，還是守住「社交帝國」？

下一篇：A2A協議與AAIF基金會競相制定AI智能體互通標準