UIUC、Amazon團隊最新研究指出SFT災難性遺忘問題或被誤解

UIUC、Amazon團隊最新研究指出SFT災難性遺忘問題或被誤解

文章圖片

UIUC、Amazon團隊最新研究指出SFT災難性遺忘問題或被誤解

文章圖片

UIUC、Amazon團隊最新研究指出SFT災難性遺忘問題或被誤解

文章圖片

UIUC、Amazon團隊最新研究指出SFT災難性遺忘問題或被誤解

文章圖片

UIUC、Amazon團隊最新研究指出SFT災難性遺忘問題或被誤解

文章圖片

UIUC、Amazon團隊最新研究指出SFT災難性遺忘問題或被誤解


在大模型微調實踐中 , SFT(監督微調)幾乎成為主流流程的一部分 , 被廣泛應用于各類下游任務和專用場景 。 比如 , 在醫療領域 , 研究人員往往會用領域專屬數據對大模型進行微調 , 從而顯著提升模型在該領域特定任務上的表現 。
然而 , 問題隨之而來:SFT 是否會讓模型 “遺忘” 原本的通用能力? 過去的研究中 , 不少文獻指出 , 領域微調固然能帶來專用性能的提升 , 但代價是模型在數學推理、代碼生成、指令跟隨等通用 benchmark 上出現顯著退化 。 這種現象被廣泛稱為 “災難性遺忘” 。 然而 , 這一長期流傳的看法或許值得重新審視 。
來自 UIUC、Amazon、UT Austin 以及 University at Buffalo 的研究團隊最新發布的一項工作就給出了不同的答案 。 研究表明 , 領域特定的 SFT 并不總是會嚴重削弱模型的通用能力 。 相反 , 在訓練中采用更小的學習率 , 模型就可能在兩方面取得平衡:
在通用任務上的能力遺忘被大幅緩解; 在目標領域上的表現依然與大學習率相當 。換句話說 , 遺忘問題可能更多源于訓練策略的選擇 , 而不是單單 SFT 這一范式本身 。

論文標題:SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs 論文地址:https://arxiv.org/pdf/2509.20758一句話概括:稍微更小的學習率能大幅度緩解遺忘 , TALR 則是進一步平衡的利器 。
實驗細節:重新審視學習率對 SFT 帶來的影響
實驗設置
任務與數據 。領域側選擇兩個現實強相關的場景和領域專屬數據集:MedCalc 和 ESCI。 選擇這兩個數據集的原因在于它們代表了開源 LLM 在現實應用中表現最薄弱的場景 , 因此也是最有必要做 domain-specific SFT 的場合 。
MedCalc(醫療推理):10.1k 訓練 / 1.05k 測試 , 每條樣本含患者筆記與臨床指令;SFT 學習的目標為 “推理過程(CoT)+ 最終答案” 。 指標用 Accuracy 。 ESCI(電商商品多分類問題):49k 訓練 / 10k 測試 , 四類標簽(Exact/Substitute/Complement/Irrelevant) 。 設置分 w/ CoT(推理 + 標簽)與 w/o CoT(僅標簽)兩種;主指標用 Balanced Accuracy (BACC) 以應對類別不均衡 。模型與評測
選取多種規模 / 家族的開源 LLM 做實驗:Qwen3-8B、Qwen2.5-7B、Qwen2.5-3B、Qwen3-4B、Gemma3-4B、Gemma3-1B 的 Instruct 模型 。 統一采用監督微調(SFT) , 核心控制變量是學習率(lr) , 取 1e-6 / 5e-6 / 2e-5 三檔 , 其他訓練超參遵循常規 SFT 實踐 。
SFT 完成后 , 在不同 lr 下先以目標領域指標挑選最佳 checkpoint , 再用 IFEval(指令跟隨)/ GSM8K(數學)/ HumanEval(代碼) 進行 “通用能力” 評測 , 報告三者的均值作為總分(General performance) 。 這一流程貼近 “實際落地優先領域效果、隨后回看通用能力” 的場景 。
實驗結果

實驗結果如圖所示 。 每個點表示某一 lr 下的(Domain performance , General performance)二元坐標;灰色 “Init” 星形代表微調前的模型性能 。
研究發現一:更小的學習率帶來更優折中
在 MedCalc 和 ESCI 上 , 使用更小的學習率(如 1e-6)時 , 模型能同時保持目標領域的強性能 , 并顯著減輕通用能力的下降 。 換句話說 , 災難性遺忘可以通過學習率控制來大幅度緩解 。
研究發現二:對于分類問題 , 僅分類標簽監督放寬了學習率約束
當訓練目標只包含最終標簽(不需要中間推理鏈)時 , 實現理想折中的學習率范圍會更寬 。 在 ESCI (w/o CoT) 的設定下 , 學習率 5e-6 甚至能表現得和 1e-6 一樣好 , 這與其他情況形成鮮明對比 。
作者進一步在大規模數據集 MetaMathQA 上進行實驗 。 MetaMathQA 是一個大規模數學推理數據集 , 包含 395k 條訓練樣本 。 實驗采用 DeepSeek-Coder-7B 作為基礎模型 。 這一模型在數學推理任務上原本表現相對薄弱 , 因此是一個理想的測試對象 。

在訓練過程中 , 研究團隊使用 MetaMathQA 進行監督微調 , 并將 GSM8K 作為目標領域的評測基準 。 結果顯示 , 即便在如此大規模的數據條件下 , 結論依然保持一致:更小的學習率(在這里 5e-6) 能夠在保持數學領域性能的同時(相比于大學習率 2e-5) , 顯著緩解模型在原來擅長的 Coding 能力的退化 。 換句話說 , 論文中提出的發現是同樣適用于大規模任務與模型的普適規律 。
注:這里的學習率大小都是相對的 , 不同 task 的能夠達到最佳平衡的學習率也不同 , 比如 MedCalc 和 ESCI 是 1e-6 , 而 MetaMathQA 是 5e-6 。 在對應的數據集和最佳學習率下 , 它們都會盡可能抑制通用能力的遺忘 , 并且取得和更大學習率相匹敵的下游性能 。
理論分析
為了更好地解釋這些現象 , 作者團隊進一步從理論分析的角度尋找了支撐性的 insight 。


他們首先得到了一個關鍵結論:較小的學習率能夠嚴格收緊通用性能下降的上界 。 換句話說 , 使用更小的分布更新步長意味著模型在提升目標領域表現的同時 , 更有保障地保留住已有的通用能力 。 這正好與實驗中的 Finding 1 相呼應 。
緊接著 , 團隊又給出另一條理論解釋:當訓練目標只包含最終標簽時 , 模型在每個樣本中遇到的 “難 token” 數量減少 , 從而拓寬了可接受的學習率范圍 。 這也就解釋了實驗中 ESCI (w/o CoT) 的現象 —— 為什么在沒有推理鏈的情況下 , 較大的學習率(5e-6) 依然能夠保持良好的折中效果 。 這對應著實驗中的 Finding 2 。
小結與反思
論文在實證和理論分析的基礎上指出 , 小學習率雖然能顯著減輕通用能力的下降 , 但并不能完全消除這一問題 。 在某些場景下 , 即便采用了更小的學習率 , 仍然會觀察到一定程度的通用能力的性能退化 。 同時 , 較小的學習率雖然在大多數情況下領域性能與較大學習率相差無幾 , 但在某些任務里差距依然不可忽視 。 這意味著 , 如果應用場景里必須優先保證目標領域的最高性能 , 研究者仍然可能選擇使用較大的學習率 。 但隨之而來的問題是:更大的學習率幾乎必然帶來更嚴重的通用性能下降 。 因此 , 開發額外的緩解策略 , 尤其是在大學習率條件下抑制遺忘 , 顯得同樣重要 。
為此 , 作者團隊深入探索更佳的策略 。 從理論分析進一步得到啟發 , 作者發現導致遺忘的關鍵因素之一是 hard tokens(低概率 tokens) —— 它們在訓練中的更新幅度往往遠大于 easy token , 從而對通用能力退化有較大影響 。 這一觀察自然引出了新的思路:可以設計 “token 自適應的 reweighting 策略” , 在訓練時直接降低 hard token 的損失權重 , 從而抑制它們對通用能力的過度侵蝕 。
Token 自適應 Loss 重加權 (TALR)
方法細節
前面的理論分析已經指出 , 災難性遺忘的一個重要來源在于 hard token(低概率 token) 。 一個自然的思路是:在訓練時降低這些 hard token 的權重 。 但問題在于 , 如何自動識別 hard token , 并動態決定它們應該被削弱多少? 如果僅僅依賴固定閾值或手工設定參數 , 不僅缺乏普適性 , 也難以適配不同模型與任務 。
為了解決這個問題 , 作者團隊提出了 TALR(Token-Adaptive Loss Reweighting) , 即通過建立一個約束優化問題進行求解來獲得自適應的權重 。 其核心思想是:根據每個 token 的預測概率 , 自適應地分配權重;置信度低(概率?。 ┑?token → 權重更小 , 從而削弱這些 hard token 在訓練中的過度梯度貢獻 。
這種方法通過建立約束優化問題實現 , 可以得到解析解 , 訓練時在每個 batch 都會動態更新權重 , 始終與模型的置信度保持一致 。

其中 , τ 的選取也是自適應的 , 由在每個 batch 中依據序列平均損失的中位數動態確定 。 作者指出 , 這樣的自適應 τ 的選取可以取得一致比較好的結果 。 若固定溫度系數 τ 比如 τ=1 , 則模型會無法學習領域的知識進而在 domain performance 上表現很差 。 基于此 , 整體的算法流程如下:

實驗結果

研究團隊在 MedCalc 基準 上 , 系統比較了多種具有代表性的災難性遺忘緩解策略 , 包括 L2 正則化、LoRA、Wise-FT(模型平均)、FLOW , 以及他們新提出的 TALR 方法 。 實驗在兩種學習率設定下展開:較小學習率 (1e-6) 和 較大學習率 (5e-6) 。
小學習率 (1e-6). 結果顯示 , 大多數方法在這一設定下表現接近 , 幾乎都聚集在圖像右上區域 。 這說明單純降低學習率本身 , 已經能夠在保持領域性能的同時 , 有效緩解通用能力退化 。 在小學率下 , TALR 與其他方法相比差距不大 , 但依然展現出更穩定、更平滑的折中表現 。
大學習率 (5e-6). 當學習率升高時 , 通用性能下降的幅度明顯加劇 , 幾乎所有方法的點位整體下移 。 在這種更具挑戰性的情況下 , TALR 的優勢逐漸凸顯:無論在 Qwen2.5-3B 還是 Qwen3-4B 模型上 , TALR 都能夠實現更優的 Pareto 前沿位置 , 在保持領域增益的同時 , 顯著減少通用性能的損失 。
小結:整體來看 , 當條件允許時 , 小學習率本身已能帶來可靠的折中效果;但在必須依賴較大學習率以進一步提升領域性能時 , TALR 展現出顯著優勢 。 然而 , 現有方法仍無法徹底消除高學習率帶來的性能退化 , 這一現象也揭示出未來研究的重要方向 —— 如何探索更強大的緩解策略 , 以在大學習率下兼顧領域能力和通用性能 。
Token 層面的深入分析
作者進一步從 token-level 對 SFT 進行分析 , 首先是計算 model 對每個訓練的 token 的置信度(概率) , 計算如下 。


多數 token 容易 , 少數 “難點” 成瓶頸
在更細粒度的 token 層面 , 研究團隊進一步揭示了 SFT 過程中隱藏的現象 。 結果顯示 , 對于一個只能取得不到 10% 準確率的模型 , 大多數訓練數據中的 token 對模型來說學習難度并不大 。 換句話說 , 模型往往能夠以較高置信度預測這些 token , 尤其是在推理鏈條的中后段 , 一旦上下文信息積累到位 , LLM 很容易繼續生成后續 token 。
【UIUC、Amazon團隊最新研究指出SFT災難性遺忘問題或被誤解】相比較而言 , 性能非常差的歸因于一小部分 “hard tokens”—— 即模型在預測時置信度較低的 token 。 這類 token 通常出現在序列的早期位置 , 或是與特定領域的專業概念相關 。 例如 , 在 MedCalc 數據集中 , 涉及臨床單位換算的 token 往往被模型賦予較低概率 , 這可能是因為相關知識在預訓練數據中覆蓋不足 。 這些 “hard tokens” 數量稀少 , 但卻可能成為決定性能的關鍵瓶頸 。
統計分析進一步驗證了這一趨勢:從箱線圖中 , 對于跨多個模型變體的實驗 , 大部分 token 的概率分布上四分位接近 1 , 說明模型對大多數 token 的學習信心都很高 。 但與此同時 , 模型在 MedCalc 這類專用任務上的零樣本表現依舊偏低 , 凸顯了少數高難度 token 的重要性 。
TALR 的訓練動態:隱含 “課程式” 學習
更有趣的是 , 研究人員發現 TALR 在訓練中自發呈現出一種類似 “課程學習(curriculum learning)” 的機制 。 具體來說 , TALR 會減輕置信度過低 token 的梯度更新幅度 , 優先讓模型通過置信度較高的 token 來驅動優化 。 隨著訓練逐步推進 , 越來越多之前被視為 “難點” 的 token 被納入大幅度更新范圍 , 訓練過程由 “易” 到 “難” , 自然形成了一種動態的學習路徑 。 這一發現表明 , TALR 不僅能在整體上緩解遺忘 , 還能在細節上為模型學習構建更合理的節奏 , 使其逐步掌握領域內的關鍵知識點 。
結論與展望
自從 DeepSeek-R1 火了之后 , 業界普遍興起了一股 “RL can solve everything” 的浪潮 , 很多人認為強化學習才是大模型能力提升的終極解法 , 而 SFT(監督微調)則顯得不那么重要 , 甚至逐漸被忽視 。 事實上 , 這種看法忽略了一個根基性的事實:RL 的百花齊放 , 本質上是建立在高質量 SFT 打下的堅實基礎之上的 。 沒有強大的 SFT , RL 很難發揮出現在這樣的效果 。 換句話說 , SFT 依然是一切的基石 。
在這項研究中 , UIUC 和 Amazon 團隊提供了實證和理論的雙重證據 , 挑戰了 “領域 SFT 會顯著損害通用能力” 的普遍認知 。 通過系統化實驗 , 他們發現:更小的學習率能夠帶來更優的性能折中 , 既能保持通用能力 , 又能提升目標領域表現 。 在此基礎上 , 團隊還提出了 TALR(Token-Adaptive Loss Reweighting) , 進一步緩解了災難性遺忘問題 。
展望未來 , 研究人員也指出 , 沒有單一方法可以徹底解決 SFT 的遺忘問題 。 小學習率與 TALR 是有效的第一步 , 但更廣泛的數據集、更大規模模型(如 MoE 架構)、以及更系統的理論指導 , 都有待深入探索 。
同時 , 這項工作也為 更好的領域適配 提供了重要啟發 。 例如在醫學場景中 , 很多專門化的醫療 LLM 反而不如基礎模型 , 這意味著如何在注入領域知識的同時保留基礎模型的通用能力 , 是未來值得關注的關鍵方向 。
此外 , 論文還提醒業界:SFT 在 RL 之前的 “預熱” 階段同樣至關重要 。 如果過度 SFT , 模型可能會過早穩定化 , 削弱探索能力 , 從而影響后續 RL 的效果 。 因此 , 如何在保持多樣性的同時抑制遺忘 , 將是下一階段值得深入研究的重要課題 。
總的來說 , 這項研究不僅重申了 SFT 的價值 , 也為大模型未來的微調與適配提供了新的思路:RL 可能是顯學 , 錦上添花;但 SFT 仍然是地基 , 沒有它就難以穩如磐石 。

    推薦閱讀