為什么模型訓練中會有“機器評分高,但人工評分卻很差”的情況?

為什么模型訓練中會有“機器評分高,但人工評分卻很差”的情況?

文章圖片

為什么模型在自動評估中表現優異 , 卻在真實場景中頻頻翻車?是評估指標選錯了 , 還是訓練數據出了問題?本文將從評分機制、數據偏差、任務理解等多個維度 , 深入剖析這一常見卻被忽視的現象 , 幫助你真正理解“高分模型”背后的隱患與優化方向 。
有沒有在AI應用開發者的中 , 遇到過這樣一個令人困惑的現象:
  • 你在訓練后跑了 ChatScore 或 BLEU、Perplexity 等指標 , 一切都不錯;
  • 結果找用戶或團隊做了一輪人工測評 , 卻反?。 骸懊晃露取薄ⅰ跋窕鰲薄ⅰ按鸕煤芄俜健?。
為什么模型“表面優秀” , 在人工測評時拿到低分?這到底是哪里出了問題?
出現這種情況 , 可能是你用了不匹配的“評委”標準 , 今天我們從模型評估機制的角度 , 來詳細聊一聊這個“評分錯位”的問題 。

一、為什么會出現這種評分“錯位”現象?原因1:機器更看重“格式對不對” , 人更在意“你懂不懂我”大多數機器評審模型評判輸出質量時 , 默認參考的標準是:“準確性 + 流暢性 + 結構完整” , 也就是:
但人在某些場景對話中 , 關心的往往來自細膩的情緒判斷、語境感受力 , 比如:
  • 你有沒有真正了解我的感受?
  • 你說話的方式讓我舒服嗎?
  • 你是不是只是教我理論 , 而不能告訴我實際該怎么應用?
舉個例子(拖延場景):
用戶問:“我又拖延了一整天 , 我是不是很沒有意志力?。 俊?
模型輸出A(評分高):“建議你制定一個每日目標清單 , 并設定獎勵機制以強化執行力 。 ”
模型輸出B(評分低):“我聽出來你已經對自己的狀態有些失望了 。 你為什么會覺得自己沒有意志力呢?”
模型評分時:
? A 得分高是因為結構清晰、建議明確
? B 得分低是因為沒有直接“給方案”
但人在評分時往往會選 B 更有溫度、更被理解 。 這就是兩者錯位 。
這種現象常見原因包括:
1. 語言風格自然口語化 , 比如不太規范的表達、碎句、停頓 , 機器會扣分 , 但人反而覺得真實;
2. 回答沒有標準結構 , 但有情緒共鳴;
3. 刻意“留白”或不下判斷 , 機器會判為“未完成任務” , 但人會覺得“沒被冒犯 , 挺好” 。

原因2:評估 prompt 設計不當 , 導致模型“誤評”很多人在 做模型打分時 , 只寫一條 prompt , 沒有提供明確的評分維度 , 比如是否共情、是否邏輯清晰、是否溫和表達等 , 模型就會默認用通用語言評價指標(準確、結構、知識密度等)去打分 , 這就造成部分場景下的回答不接地氣 。
舉個例子(依然拖延場景):
Prompt 寫的是:“你是一個對話質量評審官 , 請判斷以下兩個回答中哪個更好 。 ”
? 用戶發問:
“我明知道要交報告了 , 但今天還是刷了三個小時短視頻……我到底怎么了?”
? 回答A:
“建議你使用番茄鐘工作法 , 并設置屏蔽應用程序 , 提升專注力 。 ”
? 回答B:
“我感覺你可能是在逃避某種壓力 , 而不是單純地‘不自律’ 。 你今天過得還好嗎?”
如果沒有提示“請考慮共情、語氣、對情緒的理解”等評分維度 , 模型很可能會選 A ——因為它任務完成度高、結構工整、建議明確 。
但人類打分時 , 往往會更喜歡 B ——因為它不急著解決問題 , 而是先理解人本身的狀態 。
評估 prompt 不僅決定“讓模型關注什么” , 也決定“它可能忽略什么” 。 對于需要情感類的對話任務 , 如果 prompt 中沒有明確強調“共情”“溫和表達”等維度 , 模型就可能用錯“尺子”來打分 , 造成“機器評分高卻不打動人”的錯位現象 。

二、怎么解決這個問題?方法1:人機聯合評估 , 不能只靠ChatScore等自動指標
  • 初步篩選可以跑 ChatScore , 但最終上線前必須做人工樣本核驗;
  • 推薦制作一個“人機評分對照表” , 看哪些場景下兩者嚴重分歧 , 做“偏好訓練”優化;
  • 多維度人工評分體系(如:共情度、溫和度、任務完成度)能更精準還原用戶體驗 。

方法2:訓練你自己的“行為偏好評分器”這是許多領先團隊都在使用的方法:
將你已有的大量人工偏好數據(“這個回答更好”)拿出來 , 訓練一個“懂你的用戶”的模型評分器 。
當你收集了幾千條這樣的數據后 , 就可以訓練一個Reward Model(偏好評分器) , 它:
  • 不再只看語言邏輯;
  • 會更關注情緒識別、語氣溫和、引導性強等維度;
  • 更接近你的目標用戶對AI的真實期待 。
這樣 , 你之后的模型評估就可以真正基于你的場景和人群 , 而不是一套通用標準 。

方法3:重新設計機器評審的 Prompt , 引導更人性化的打分與其讓機器評審當一個特定的角色 , 還不如給它一些更具體的評分維度 。
比如 , Prompt中寫明從以下維度為回答進行打分:
  • 共情度(是否理解用戶情緒)
  • 引導力(是否有助于用戶思考)
  • 語言溫和度
  • 問題正確理解性
  • 回答完整性
  • 表達流暢度
請每個維度給1-5分 , 并說明原因 。 這樣得到的打分會更貼近人類主觀判斷 , 更適合需要情感溫度的AI 。 (具體維度如何 , 還要看實際的應用場景)
舉個例子

評估標準錯了 , 模型效果可能會大打折扣在LoRA微調任務中 , 如果你的目標是做情緒陪伴、或需要情感理解、支持的AI , 那么你:
  • 不能只信 ChatScore / BLEU / Perplexity;
  • 應該多維對比:機器打分 vs 人工評分;
  • 可以訓練自己懂場景、懂風格的“偏好評分器”;
  • 最后上線前 , 一定要經過人工評估 + 小范圍灰度實測 。
畢竟 , 模型不只是會“說話” , 更要說出“讓人愿意繼續對話”的話 。
因為真正決定用戶是否留下來的 , 不是你算法有多高級、結構多精巧 , 而是——
當用戶說“我今天真的撐不下去了”的時候 ,
你的模型能不能先像一個知心朋友那樣 , 在引導他找到答案之前 , 讓他感受到“我懂你” 。
這才是大模型時代 , 更加值得評估的能力 。
本文由 @養心進行時 原創發布于人人都是產品經理 , 未經許可 , 禁止轉載
題圖來自 Unsplash , 基于 CC0 協議
【為什么模型訓練中會有“機器評分高,但人工評分卻很差”的情況?】該文觀點僅代表作者本人 , 人人都是產品經理平臺僅提供信息存儲空間服務 。

    推薦閱讀