
文章圖片
為什么模型在自動評估中表現優異 , 卻在真實場景中頻頻翻車?是評估指標選錯了 , 還是訓練數據出了問題?本文將從評分機制、數據偏差、任務理解等多個維度 , 深入剖析這一常見卻被忽視的現象 , 幫助你真正理解“高分模型”背后的隱患與優化方向 。有沒有在AI應用開發者的中 , 遇到過這樣一個令人困惑的現象:
- 你在訓練后跑了 ChatScore 或 BLEU、Perplexity 等指標 , 一切都不錯;
- 結果找用戶或團隊做了一輪人工測評 , 卻反?。 骸懊晃露取薄ⅰ跋窕鰲薄ⅰ按鸕煤芄俜健?。
出現這種情況 , 可能是你用了不匹配的“評委”標準 , 今天我們從模型評估機制的角度 , 來詳細聊一聊這個“評分錯位”的問題 。
一、為什么會出現這種評分“錯位”現象?原因1:機器更看重“格式對不對” , 人更在意“你懂不懂我”大多數機器評審模型評判輸出質量時 , 默認參考的標準是:“準確性 + 流暢性 + 結構完整” , 也就是:
但人在某些場景對話中 , 關心的往往來自細膩的情緒判斷、語境感受力 , 比如:
- 你有沒有真正了解我的感受?
- 你說話的方式讓我舒服嗎?
- 你是不是只是教我理論 , 而不能告訴我實際該怎么應用?
用戶問:“我又拖延了一整天 , 我是不是很沒有意志力?。 俊?
模型輸出A(評分高):“建議你制定一個每日目標清單 , 并設定獎勵機制以強化執行力 。 ”
模型輸出B(評分低):“我聽出來你已經對自己的狀態有些失望了 。 你為什么會覺得自己沒有意志力呢?”
模型評分時:
? A 得分高是因為結構清晰、建議明確
? B 得分低是因為沒有直接“給方案”
但人在評分時往往會選 B 更有溫度、更被理解 。 這就是兩者錯位 。
這種現象常見原因包括:
1. 語言風格自然口語化 , 比如不太規范的表達、碎句、停頓 , 機器會扣分 , 但人反而覺得真實;
2. 回答沒有標準結構 , 但有情緒共鳴;
3. 刻意“留白”或不下判斷 , 機器會判為“未完成任務” , 但人會覺得“沒被冒犯 , 挺好” 。
原因2:評估 prompt 設計不當 , 導致模型“誤評”很多人在 做模型打分時 , 只寫一條 prompt , 沒有提供明確的評分維度 , 比如是否共情、是否邏輯清晰、是否溫和表達等 , 模型就會默認用通用語言評價指標(準確、結構、知識密度等)去打分 , 這就造成部分場景下的回答不接地氣 。
舉個例子(依然拖延場景):
Prompt 寫的是:“你是一個對話質量評審官 , 請判斷以下兩個回答中哪個更好 。 ”
? 用戶發問:
“我明知道要交報告了 , 但今天還是刷了三個小時短視頻……我到底怎么了?”
? 回答A:
“建議你使用番茄鐘工作法 , 并設置屏蔽應用程序 , 提升專注力 。 ”
? 回答B:
“我感覺你可能是在逃避某種壓力 , 而不是單純地‘不自律’ 。 你今天過得還好嗎?”
如果沒有提示“請考慮共情、語氣、對情緒的理解”等評分維度 , 模型很可能會選 A ——因為它任務完成度高、結構工整、建議明確 。
但人類打分時 , 往往會更喜歡 B ——因為它不急著解決問題 , 而是先理解人本身的狀態 。
評估 prompt 不僅決定“讓模型關注什么” , 也決定“它可能忽略什么” 。 對于需要情感類的對話任務 , 如果 prompt 中沒有明確強調“共情”“溫和表達”等維度 , 模型就可能用錯“尺子”來打分 , 造成“機器評分高卻不打動人”的錯位現象 。
二、怎么解決這個問題?方法1:人機聯合評估 , 不能只靠ChatScore等自動指標
- 初步篩選可以跑 ChatScore , 但最終上線前必須做人工樣本核驗;
- 推薦制作一個“人機評分對照表” , 看哪些場景下兩者嚴重分歧 , 做“偏好訓練”優化;
- 多維度人工評分體系(如:共情度、溫和度、任務完成度)能更精準還原用戶體驗 。
方法2:訓練你自己的“行為偏好評分器”這是許多領先團隊都在使用的方法:
將你已有的大量人工偏好數據(“這個回答更好”)拿出來 , 訓練一個“懂你的用戶”的模型評分器 。
當你收集了幾千條這樣的數據后 , 就可以訓練一個Reward Model(偏好評分器) , 它:
- 不再只看語言邏輯;
- 會更關注情緒識別、語氣溫和、引導性強等維度;
- 更接近你的目標用戶對AI的真實期待 。
方法3:重新設計機器評審的 Prompt , 引導更人性化的打分與其讓機器評審當一個特定的角色 , 還不如給它一些更具體的評分維度 。
比如 , Prompt中寫明從以下維度為回答進行打分:
- 共情度(是否理解用戶情緒)
- 引導力(是否有助于用戶思考)
- 語言溫和度
- 問題正確理解性
- 回答完整性
- 表達流暢度
舉個例子
評估標準錯了 , 模型效果可能會大打折扣在LoRA微調任務中 , 如果你的目標是做情緒陪伴、或需要情感理解、支持的AI , 那么你:
- 不能只信 ChatScore / BLEU / Perplexity;
- 應該多維對比:機器打分 vs 人工評分;
- 可以訓練自己懂場景、懂風格的“偏好評分器”;
- 最后上線前 , 一定要經過人工評估 + 小范圍灰度實測 。
因為真正決定用戶是否留下來的 , 不是你算法有多高級、結構多精巧 , 而是——
當用戶說“我今天真的撐不下去了”的時候 ,
你的模型能不能先像一個知心朋友那樣 , 在引導他找到答案之前 , 讓他感受到“我懂你” 。
這才是大模型時代 , 更加值得評估的能力 。
本文由 @養心進行時 原創發布于人人都是產品經理 , 未經許可 , 禁止轉載
題圖來自 Unsplash , 基于 CC0 協議
【為什么模型訓練中會有“機器評分高,但人工評分卻很差”的情況?】該文觀點僅代表作者本人 , 人人都是產品經理平臺僅提供信息存儲空間服務 。
推薦閱讀
- 實測谷歌Gemma 3n:偏科明顯,但這才是端側大模型的答案
- 全球PC市場領軍者之選 為什么說銳龍8000G更適合商用臺式機?
- AI 編程十字路口:為什么說 Copilot 模式是創業陷阱?
- 大模型的「aha moment」不是裝腔作勢,內部信息量暴增數倍!
- 推理AI致命弱點,大模型變「杠精」,被帶偏后死不悔改
- 通義靈碼軟件工程大模型獲國際頂會杰出論文獎,復雜問題解決率刷新開源紀錄
- 瑞金醫院與華為開源RuiPath病理模型 為醫療AI發展按下“加速鍵”
- 5年前的榮耀X系列手機,為什么還有人舍不得換機?
- Grok 4源代碼泄露,上線倒計時,馬斯克xAI估值破1130億,大模型要變天
- 模型微調:從理論到實踐的深度解析
