為什么模型訓練中會有“機器評分高，但人工評分卻很差”的情況？_互聯網金融

文章圖片

為什么模型在自動評估中表現優異，卻在真實場景中頻頻翻車？是評估指標選錯了，還是訓練數據出了問題？本文將從評分機制、數據偏差、任務理解等多個維度，深入剖析這一常見卻被忽視的現象，幫助你真正理解“高分模型”背后的隱患與優化方向。

有沒有在AI應用開發者的中，遇到過這樣一個令人困惑的現象：

你在訓練后跑了 ChatScore 或 BLEU、Perplexity 等指標，一切都不錯；
結果找用戶或團隊做了一輪人工測評，卻反?。骸懊晃露取薄ⅰ跋窕鰲薄ⅰ按鸕煤芄俜健?。

為什么模型“表面優秀” ，在人工測評時拿到低分？這到底是哪里出了問題？
出現這種情況，可能是你用了不匹配的“評委”標準，今天我們從模型評估機制的角度，來詳細聊一聊這個“評分錯位”的問題。

一、為什么會出現這種評分“錯位”現象？原因1：機器更看重“格式對不對” ，人更在意“你懂不懂我”大多數機器評審模型評判輸出質量時，默認參考的標準是：“準確性 + 流暢性 + 結構完整” ，也就是：
但人在某些場景對話中，關心的往往來自細膩的情緒判斷、語境感受力，比如：

你有沒有真正了解我的感受？
你說話的方式讓我舒服嗎？
你是不是只是教我理論，而不能告訴我實際該怎么應用？

舉個例子（拖延場景）：
用戶問：“我又拖延了一整天，我是不是很沒有意志力?。俊?
模型輸出A（評分高）：“建議你制定一個每日目標清單，并設定獎勵機制以強化執行力。 ”
模型輸出B（評分低）：“我聽出來你已經對自己的狀態有些失望了。你為什么會覺得自己沒有意志力呢？”
模型評分時：
? A 得分高是因為結構清晰、建議明確
? B 得分低是因為沒有直接“給方案”
但人在評分時往往會選 B 更有溫度、更被理解。這就是兩者錯位。
這種現象常見原因包括：
1. 語言風格自然口語化，比如不太規范的表達、碎句、停頓，機器會扣分，但人反而覺得真實；
2. 回答沒有標準結構，但有情緒共鳴；
3. 刻意“留白”或不下判斷，機器會判為“未完成任務” ，但人會覺得“沒被冒犯，挺好” 。

原因2：評估 prompt 設計不當，導致模型“誤評”很多人在做模型打分時，只寫一條 prompt ，沒有提供明確的評分維度，比如是否共情、是否邏輯清晰、是否溫和表達等，模型就會默認用通用語言評價指標（準確、結構、知識密度等）去打分，這就造成部分場景下的回答不接地氣。
舉個例子（依然拖延場景）：
Prompt 寫的是：“你是一個對話質量評審官，請判斷以下兩個回答中哪個更好。 ”
? 用戶發問：
“我明知道要交報告了，但今天還是刷了三個小時短視頻……我到底怎么了？”
? 回答A：
“建議你使用番茄鐘工作法，并設置屏蔽應用程序，提升專注力。 ”
? 回答B：
“我感覺你可能是在逃避某種壓力，而不是單純地‘不自律’ 。你今天過得還好嗎？”
如果沒有提示“請考慮共情、語氣、對情緒的理解”等評分維度，模型很可能會選 A ——因為它任務完成度高、結構工整、建議明確。
但人類打分時，往往會更喜歡 B ——因為它不急著解決問題，而是先理解人本身的狀態。
評估 prompt 不僅決定“讓模型關注什么” ，也決定“它可能忽略什么” 。對于需要情感類的對話任務，如果 prompt 中沒有明確強調“共情”“溫和表達”等維度，模型就可能用錯“尺子”來打分，造成“機器評分高卻不打動人”的錯位現象。

二、怎么解決這個問題？方法1：人機聯合評估，不能只靠ChatScore等自動指標

初步篩選可以跑 ChatScore ，但最終上線前必須做人工樣本核驗；
推薦制作一個“人機評分對照表” ，看哪些場景下兩者嚴重分歧，做“偏好訓練”優化；
多維度人工評分體系（如：共情度、溫和度、任務完成度）能更精準還原用戶體驗。

方法2：訓練你自己的“行為偏好評分器”這是許多領先團隊都在使用的方法：
將你已有的大量人工偏好數據（“這個回答更好”）拿出來，訓練一個“懂你的用戶”的模型評分器。
當你收集了幾千條這樣的數據后，就可以訓練一個Reward Model（偏好評分器），它：

不再只看語言邏輯；
會更關注情緒識別、語氣溫和、引導性強等維度；
更接近你的目標用戶對AI的真實期待。

這樣，你之后的模型評估就可以真正基于你的場景和人群，而不是一套通用標準。

方法3：重新設計機器評審的 Prompt ，引導更人性化的打分與其讓機器評審當一個特定的角色，還不如給它一些更具體的評分維度。
比如， Prompt中寫明從以下維度為回答進行打分：

共情度（是否理解用戶情緒）
引導力（是否有助于用戶思考）
語言溫和度
問題正確理解性
回答完整性
表達流暢度

請每個維度給1-5分，并說明原因。這樣得到的打分會更貼近人類主觀判斷，更適合需要情感溫度的AI 。（具體維度如何，還要看實際的應用場景）
舉個例子

評估標準錯了，模型效果可能會大打折扣在LoRA微調任務中，如果你的目標是做情緒陪伴、或需要情感理解、支持的AI ，那么你：

不能只信 ChatScore / BLEU / Perplexity；
應該多維對比：機器打分 vs 人工評分；
可以訓練自己懂場景、懂風格的“偏好評分器”；
最后上線前，一定要經過人工評估 + 小范圍灰度實測。

畢竟，模型不只是會“說話” ，更要說出“讓人愿意繼續對話”的話。
因為真正決定用戶是否留下來的，不是你算法有多高級、結構多精巧，而是——
當用戶說“我今天真的撐不下去了”的時候，
你的模型能不能先像一個知心朋友那樣，在引導他找到答案之前，讓他感受到“我懂你” 。
這才是大模型時代，更加值得評估的能力。
本文由 @養心進行時原創發布于人人都是產品經理，未經許可，禁止轉載
題圖來自 Unsplash ，基于 CC0 協議
【為什么模型訓練中會有“機器評分高，但人工評分卻很差”的情況？】該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。