別再迷信AI跑分了:考試成績好,工作干不了

別再迷信AI跑分了:考試成績好,工作干不了

文章圖片

別再迷信AI跑分了:考試成績好,工作干不了

(來源:麻省理工科技評論)

幾十年來 , 人類評估 AI 能力的方法論 , 都是圍繞著“機器能否超越人類”的思路展開的 。 從國際象棋到高等數學 , 從編程到寫作 , AI 模型和應用的性能都是讓它和人類的表現水準做對比來檢驗的 。

這種框架很有吸引力:在有明確對錯答案的獨立問題上做 AI 與人類的比較 , 容易標準化、容易比較、容易優化 。 它能生成排行榜和新聞標題 。

但問題在于:AI 被使用的方法 , 和 AI 被測試的方法 , 是兩種完全不同的體系 。 雖然研究人員和行業已經開始改進基準測試 , 從靜態測試轉向更動態的評估方法 , 但這些創新只解決了部分問題 。 因為它們仍然在脫離人類團隊和組織工作流程的條件下評估 AI 的表現 , 而 AI 的真實性能恰恰是在這些環境中展現的 。

AI 在真空中被逐項評估 , 但它的實際使用場景是混亂而復雜的 , 通常需要與不止一個人互動 。 它的表現(或表現不佳)只有經過長時間使用才能顯現 。 這種錯位讓我們誤判了 AI 的能力 , 忽視了系統性風險 , 也對其經濟和社會后果做出了錯誤估計 。

為了改變這一狀況 , 是時候從狹隘的評估方法轉向一種新的基準測試了 , 這種測試應當評估 AI 系統在更長時間維度內、在人類團隊、工作流程和組織中的實際表現 。 自 2022 年以來 , 我研究了 AI 在英國、美國和亞洲的小型企業、醫療、人道主義、非營利和高等教育機構中的實際部署情況 , 也深入了解了倫敦和硅谷領先的 AI 設計生態 。 我提出了一種不同的方法 , 稱之為 HAIC 基準測試——即“人類-AI 場景化評估”(Human–AI Context-Specific Evaluation) 。


當前基準測試的盲區

對政府和企業而言 , AI 基準分數看起來比供應商的自我宣傳更客觀 。 它們是判斷一個 AI 模型或應用是否“夠格”投入實際部署的關鍵依據 。 想象一個 AI 模型在最前沿的基準測試上取得了亮眼的技術分數——98% 的準確率、突破性的速度、令人信服的輸出 。 憑借這些成績 , 機構可能決定采用這個模型 , 投入大量財務和技術資源進行采購和集成 。

但一旦投入使用 , 基準成績和真實表現之間的差距就迅速暴露出來了 。 以大量通過 FDA 批準的、能比放射科專家更快更準地判讀醫學影像的 AI 模型為例 。 在從加州腹地到倫敦郊區的醫院放射科 , 我親眼看到工作人員使用排名靠前的放射科 AI 應用 。 他們反復需要花額外時間將 AI 的輸出結果與醫院特定的報告標準和各國不同的監管要求進行對照解讀 。 一個在真空中測試時看似能提升生產力的 AI 工具 , 在實踐中反而帶來了延誤 。

用來評估醫療 AI 模型的基準測試并沒有捕捉到醫療決策的真實過程 。 醫院依靠的是放射科醫生、腫瘤科醫生、物理師、護士等多學科團隊共同會診患者 , 治療方案很少取決于一個靜態的決定 , 它隨著幾天或幾周內出現的新信息不斷演進 。 決策往往產生于建設性的討論 , 需要在專業標準、患者偏好和患者長期健康這一共同目標之間做出權衡 。 難怪即使得分很高的 AI 模型 , 一旦遇到真實臨床診療中復雜的協作流程 , 就難以兌現承諾的表現 。

我在其他行業的研究中也看到了同樣的模式:即使在標準化測試中表現出色的 AI 模型 , 一旦嵌入真實的工作環境 , 表現就達不到預期 。

當高基準分數無法轉化為真實表現時 , 即使得分最高的 AI 也很快會被丟進 AI 墳場” 。 代價是巨大的:時間、精力和資金都打了水漂 。 長此以往 , 這種反復的經歷會侵蝕組織對 AI 的信心 , 在醫療等關鍵領域 , 還可能侵蝕公眾對這項技術的信任 。

當現有的基準測試只能提供關于 AI 模型是否適合實際使用的片面甚至誤導性信號時 , 就會造成監管盲區:監管框架是基于不反映現實的指標來制定的 。 這也讓組織和政府承擔了在敏感的真實場景中測試 AI 的風險 , 而且往往缺乏資源和支持 。


如何構建更好的測試

要彌合基準測試和真實表現之間的差距 , 我們必須關注 AI 模型實際使用的條件 。 核心問題是:AI 能否作為人類團隊中的一個有效參與者發揮作用?它能否產生持續的、集體性的價值?

通過我對多個行業 AI 部署的研究 , 我看到一些組織已經在有意識、實驗性地向我所倡導的 HAIC 基準測試方向邁進 。

HAIC 基準測試從四個維度重構了現有的評估框架:

從分析單元而言 , 應從個人單任務表現轉向團隊和工作流程表現;從時間指標角度 , 應從有標準答案的一次性測試轉向長期影響評估;從性能指標而言 , 應從正確性和速度轉向組織層面的成效、協作質量和錯誤可發現性;從系統效應而言 , 應從孤立的輸出轉向上下游連鎖效應(系統效應) 。

在這套方法開始被應用的組織中 , 第一步是改變分析單元 。

以 2021 年至 2024 年間英國一家醫院體系為例 , 他們把問題從“某個醫療 AI 應用是否提高了診斷準確率”擴展為“AI 在醫院多學科團隊中的存在如何影響準確率、協作和集體討論” 。 醫院專門評估了使用和未使用 AI 的人類團隊在協作和討論方面的差異 。 院內外的多方利益相關者共同確定了評估指標 , 比如 AI 如何影響集體推理、它是否能發現被忽略的考量、它是加強還是削弱了協作 , 以及它是否改變了已有的風險管控和合規實踐 。

這一轉變具有根本性意義 。 在系統層面效應比單項任務準確率更重要的高風險場景中 , 這一點尤為關鍵 。 它可能有助于重新校正那些被夸大的生產力預期——這些預期迄今為止主要建立在提升個人任務表現的承諾之上 。

在這個基礎建立之后 , HAIC 基準測試才能開始納入時間維度 。

今天的基準測試像學??荚?, 是一次性的、標準化的準確率測試 。 但真正的職業能力是以不同的方式來評估的 。 初級醫生和律師是在真實工作流程中被持續考核的 , 有督導、有反饋機制、有問責體系 。 能力評估是在一段時間內、在具體的環境中進行的 , 因為勝任力是關系性的 。 如果 AI 系統要與專業人士協同工作 , 它們的影響也應當以縱向視角來評判 , 反映其表現在反復互動中如何演變 。

我在一個人道主義領域的案例研究中看到了 HAIC 這一維度的應用 。 在 18 個月的時間里 , 一個 AI 系統在真實工作流程中被持續評估 , 重點關注其錯誤的可發現性 , 也就是人類團隊能否方便地識別和糾正錯誤 。 這份長期的“錯誤可發現性記錄”讓相關組織能夠設計和測試針對具體場景的安全護欄 , 在 AI 不可避免會偶爾犯錯的前提下促進對系統的信任 。

更長的時間維度還能揭示短期基準測試忽略的系統層面后果 。 一個 AI 應用可能在某個狹窄的診斷任務上超越單個醫生 , 但未能改善多學科決策 。 更糟糕的是 , 它可能引入系統性的扭曲:過早地讓團隊錨定在看似合理但并不完整的答案上 , 增加人們的認知負擔 , 或者在下游環節產生低效 , 抵消了 AI 使用點上的速度和效率收益 。 這些連鎖效應往往是現有基準測試看不到的 , 卻是理解真實影響的核心 。

HAIC 方法確實會讓基準測試變得更復雜、更消耗資源、更難標準化 。 但如果我們繼續在脫離真實工作環境的無菌條件下評估 AI , 就會一直誤解它真正能為我們做什么、不能做什么 。 要在真實場景中負責任地部署 AI , 我們必須衡量真正重要的東西:不僅僅是一個模型獨自能做什么 , 而是當真實世界中的人和團隊與它協作時 , 它促成了什么 , 又破壞了什么 。

原文鏈接:
【別再迷信AI跑分了:考試成績好,工作干不了】https://www.technologyreview.com/2026/03/31/1134833/ai-benchmarks-are-broken-heres-what-we-need-instead/

    推薦閱讀