UIUC、Amazon團隊最新研究指出SFT災難性遺忘問題或被誤解

2026-03-04 顯卡

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

在大模型微調實踐中， SFT（監督微調）幾乎成為主流流程的一部分，被廣泛應用于各類下游任務和專用場景。比如，在醫療領域，研究人員往往會用領域專屬數據對大模型進行微調，從而顯著提升模型在該領域特定任務上的表現。
然而，問題隨之而來：SFT 是否會讓模型 “遺忘” 原本的通用能力？過去的研究中，不少文獻指出，領域微調固然能帶來專用性能的提升，但代價是模型在數學推理、代碼生成、指令跟隨等通用 benchmark 上出現顯著退化。這種現象被廣泛稱為 “災難性遺忘” 。然而，這一長期流傳的看法或許值得重新審視。
來自 UIUC、Amazon、UT Austin 以及 University at Buffalo 的研究團隊最新發布的一項工作就給出了不同的答案。研究表明，領域特定的 SFT 并不總是會嚴重削弱模型的通用能力。相反，在訓練中采用更小的學習率，模型就可能在兩方面取得平衡：
在通用任務上的能力遺忘被大幅緩解；在目標領域上的表現依然與大學習率相當。換句話說，遺忘問題可能更多源于訓練策略的選擇，而不是單單 SFT 這一范式本身。

論文標題：SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs 論文地址：https://arxiv.org/pdf/2509.20758一句話概括：稍微更小的學習率能大幅度緩解遺忘， TALR 則是進一步平衡的利器。
實驗細節：重新審視學習率對 SFT 帶來的影響
實驗設置
任務與數據。領域側選擇兩個現實強相關的場景和領域專屬數據集：MedCalc 和 ESCI。選擇這兩個數據集的原因在于它們代表了開源 LLM 在現實應用中表現最薄弱的場景，因此也是最有必要做 domain-specific SFT 的場合。
MedCalc（醫療推理）：10.1k 訓練 / 1.05k 測試，每條樣本含患者筆記與臨床指令；SFT 學習的目標為 “推理過程（CoT）+ 最終答案” 。指標用 Accuracy 。 ESCI（電商商品多分類問題）：49k 訓練 / 10k 測試，四類標簽（Exact/Substitute/Complement/Irrelevant）。設置分 w/ CoT（推理 + 標簽）與 w/o CoT（僅標簽）兩種；主指標用 Balanced Accuracy (BACC) 以應對類別不均衡。模型與評測
選取多種規模 / 家族的開源 LLM 做實驗：Qwen3-8B、Qwen2.5-7B、Qwen2.5-3B、Qwen3-4B、Gemma3-4B、Gemma3-1B 的 Instruct 模型。統一采用監督微調（SFT），核心控制變量是學習率（lr），取 1e-6 / 5e-6 / 2e-5 三檔，其他訓練超參遵循常規 SFT 實踐。
SFT 完成后，在不同 lr 下先以目標領域指標挑選最佳 checkpoint ，再用 IFEval（指令跟隨）/ GSM8K（數學）/ HumanEval（代碼）進行 “通用能力” 評測，報告三者的均值作為總分（General performance）。這一流程貼近 “實際落地優先領域效果、隨后回看通用能力” 的場景。
實驗結果

實驗結果如圖所示。每個點表示某一 lr 下的（Domain performance ， General performance）二元坐標；灰色 “Init” 星形代表微調前的模型性能。
研究發現一：更小的學習率帶來更優折中
在 MedCalc 和 ESCI 上，使用更小的學習率（如 1e-6）時，模型能同時保持目標領域的強性能，并顯著減輕通用能力的下降。換句話說，災難性遺忘可以通過學習率控制來大幅度緩解。
研究發現二：對于分類問題，僅分類標簽監督放寬了學習率約束
當訓練目標只包含最終標簽（不需要中間推理鏈）時，實現理想折中的學習率范圍會更寬。在 ESCI (w/o CoT) 的設定下，學習率 5e-6 甚至能表現得和 1e-6 一樣好，這與其他情況形成鮮明對比。
作者進一步在大規模數據集 MetaMathQA 上進行實驗。 MetaMathQA 是一個大規模數學推理數據集，包含 395k 條訓練樣本。實驗采用 DeepSeek-Coder-7B 作為基礎模型。這一模型在數學推理任務上原本表現相對薄弱，因此是一個理想的測試對象。

在訓練過程中，研究團隊使用 MetaMathQA 進行監督微調，并將 GSM8K 作為目標領域的評測基準。結果顯示，即便在如此大規模的數據條件下，結論依然保持一致：更小的學習率（在這里 5e-6) 能夠在保持數學領域性能的同時（相比于大學習率 2e-5) ，顯著緩解模型在原來擅長的 Coding 能力的退化。換句話說，論文中提出的發現是同樣適用于大規模任務與模型的普適規律。
注：這里的學習率大小都是相對的，不同 task 的能夠達到最佳平衡的學習率也不同，比如 MedCalc 和 ESCI 是 1e-6 ，而 MetaMathQA 是 5e-6 。在對應的數據集和最佳學習率下，它們都會盡可能抑制通用能力的遺忘，并且取得和更大學習率相匹敵的下游性能。
理論分析
為了更好地解釋這些現象，作者團隊進一步從理論分析的角度尋找了支撐性的 insight 。

他們首先得到了一個關鍵結論：較小的學習率能夠嚴格收緊通用性能下降的上界。換句話說，使用更小的分布更新步長意味著模型在提升目標領域表現的同時，更有保障地保留住已有的通用能力。這正好與實驗中的 Finding 1 相呼應。
緊接著，團隊又給出另一條理論解釋：當訓練目標只包含最終標簽時，模型在每個樣本中遇到的 “難 token” 數量減少，從而拓寬了可接受的學習率范圍。這也就解釋了實驗中 ESCI (w/o CoT) 的現象 —— 為什么在沒有推理鏈的情況下，較大的學習率（5e-6) 依然能夠保持良好的折中效果。這對應著實驗中的 Finding 2 。
小結與反思
論文在實證和理論分析的基礎上指出，小學習率雖然能顯著減輕通用能力的下降，但并不能完全消除這一問題。在某些場景下，即便采用了更小的學習率，仍然會觀察到一定程度的通用能力的性能退化。同時，較小的學習率雖然在大多數情況下領域性能與較大學習率相差無幾，但在某些任務里差距依然不可忽視。這意味著，如果應用場景里必須優先保證目標領域的最高性能，研究者仍然可能選擇使用較大的學習率。但隨之而來的問題是：更大的學習率幾乎必然帶來更嚴重的通用性能下降。因此，開發額外的緩解策略，尤其是在大學習率條件下抑制遺忘，顯得同樣重要。
為此，作者團隊深入探索更佳的策略。從理論分析進一步得到啟發，作者發現導致遺忘的關鍵因素之一是 hard tokens（低概率 tokens） —— 它們在訓練中的更新幅度往往遠大于 easy token ，從而對通用能力退化有較大影響。這一觀察自然引出了新的思路：可以設計 “token 自適應的 reweighting 策略” ，在訓練時直接降低 hard token 的損失權重，從而抑制它們對通用能力的過度侵蝕。
Token 自適應 Loss 重加權 (TALR)
方法細節
前面的理論分析已經指出，災難性遺忘的一個重要來源在于 hard token（低概率 token）。一個自然的思路是：在訓練時降低這些 hard token 的權重。但問題在于，如何自動識別 hard token ，并動態決定它們應該被削弱多少？如果僅僅依賴固定閾值或手工設定參數，不僅缺乏普適性，也難以適配不同模型與任務。
為了解決這個問題，作者團隊提出了 TALR（Token-Adaptive Loss Reweighting），即通過建立一個約束優化問題進行求解來獲得自適應的權重。其核心思想是：根據每個 token 的預測概率，自適應地分配權重；置信度低（概率?。 ┑?token → 權重更小，從而削弱這些 hard token 在訓練中的過度梯度貢獻。
這種方法通過建立約束優化問題實現，可以得到解析解，訓練時在每個 batch 都會動態更新權重，始終與模型的置信度保持一致。

其中， τ 的選取也是自適應的，由在每個 batch 中依據序列平均損失的中位數動態確定。作者指出，這樣的自適應 τ 的選取可以取得一致比較好的結果。若固定溫度系數 τ 比如 τ=1 ，則模型會無法學習領域的知識進而在 domain performance 上表現很差。基于此，整體的算法流程如下：

實驗結果

研究團隊在 MedCalc 基準上，系統比較了多種具有代表性的災難性遺忘緩解策略，包括 L2 正則化、LoRA、Wise-FT（模型平均）、FLOW ，以及他們新提出的 TALR 方法。實驗在兩種學習率設定下展開：較小學習率 (1e-6) 和較大學習率 (5e-6) 。
小學習率 (1e-6). 結果顯示，大多數方法在這一設定下表現接近，幾乎都聚集在圖像右上區域。這說明單純降低學習率本身，已經能夠在保持領域性能的同時，有效緩解通用能力退化。在小學率下， TALR 與其他方法相比差距不大，但依然展現出更穩定、更平滑的折中表現。
大學習率 (5e-6). 當學習率升高時，通用性能下降的幅度明顯加劇，幾乎所有方法的點位整體下移。在這種更具挑戰性的情況下， TALR 的優勢逐漸凸顯：無論在 Qwen2.5-3B 還是 Qwen3-4B 模型上， TALR 都能夠實現更優的 Pareto 前沿位置，在保持領域增益的同時，顯著減少通用性能的損失。
小結：整體來看，當條件允許時，小學習率本身已能帶來可靠的折中效果；但在必須依賴較大學習率以進一步提升領域性能時， TALR 展現出顯著優勢。然而，現有方法仍無法徹底消除高學習率帶來的性能退化，這一現象也揭示出未來研究的重要方向 —— 如何探索更強大的緩解策略，以在大學習率下兼顧領域能力和通用性能。
Token 層面的深入分析
作者進一步從 token-level 對 SFT 進行分析，首先是計算 model 對每個訓練的 token 的置信度（概率），計算如下。

多數 token 容易，少數 “難點” 成瓶頸
在更細粒度的 token 層面，研究團隊進一步揭示了 SFT 過程中隱藏的現象。結果顯示，對于一個只能取得不到 10% 準確率的模型，大多數訓練數據中的 token 對模型來說學習難度并不大。換句話說，模型往往能夠以較高置信度預測這些 token ，尤其是在推理鏈條的中后段，一旦上下文信息積累到位， LLM 很容易繼續生成后續 token 。
【UIUC、Amazon團隊最新研究指出SFT災難性遺忘問題或被誤解】相比較而言，性能非常差的歸因于一小部分 “hard tokens”—— 即模型在預測時置信度較低的 token 。這類 token 通常出現在序列的早期位置，或是與特定領域的專業概念相關。例如，在 MedCalc 數據集中，涉及臨床單位換算的 token 往往被模型賦予較低概率，這可能是因為相關知識在預訓練數據中覆蓋不足。這些 “hard tokens” 數量稀少，但卻可能成為決定性能的關鍵瓶頸。
統計分析進一步驗證了這一趨勢：從箱線圖中，對于跨多個模型變體的實驗，大部分 token 的概率分布上四分位接近 1 ，說明模型對大多數 token 的學習信心都很高。但與此同時，模型在 MedCalc 這類專用任務上的零樣本表現依舊偏低，凸顯了少數高難度 token 的重要性。
TALR 的訓練動態：隱含 “課程式” 學習
更有趣的是，研究人員發現 TALR 在訓練中自發呈現出一種類似 “課程學習（curriculum learning）” 的機制。具體來說， TALR 會減輕置信度過低 token 的梯度更新幅度，優先讓模型通過置信度較高的 token 來驅動優化。隨著訓練逐步推進，越來越多之前被視為 “難點” 的 token 被納入大幅度更新范圍，訓練過程由 “易” 到 “難” ，自然形成了一種動態的學習路徑。這一發現表明， TALR 不僅能在整體上緩解遺忘，還能在細節上為模型學習構建更合理的節奏，使其逐步掌握領域內的關鍵知識點。
結論與展望
自從 DeepSeek-R1 火了之后，業界普遍興起了一股 “RL can solve everything” 的浪潮，很多人認為強化學習才是大模型能力提升的終極解法，而 SFT（監督微調）則顯得不那么重要，甚至逐漸被忽視。事實上，這種看法忽略了一個根基性的事實：RL 的百花齊放，本質上是建立在高質量 SFT 打下的堅實基礎之上的。沒有強大的 SFT ， RL 很難發揮出現在這樣的效果。換句話說， SFT 依然是一切的基石。
在這項研究中， UIUC 和 Amazon 團隊提供了實證和理論的雙重證據，挑戰了 “領域 SFT 會顯著損害通用能力” 的普遍認知。通過系統化實驗，他們發現：更小的學習率能夠帶來更優的性能折中，既能保持通用能力，又能提升目標領域表現。在此基礎上，團隊還提出了 TALR（Token-Adaptive Loss Reweighting），進一步緩解了災難性遺忘問題。
展望未來，研究人員也指出，沒有單一方法可以徹底解決 SFT 的遺忘問題。小學習率與 TALR 是有效的第一步，但更廣泛的數據集、更大規模模型（如 MoE 架構）、以及更系統的理論指導，都有待深入探索。
同時，這項工作也為更好的領域適配提供了重要啟發。例如在醫學場景中，很多專門化的醫療 LLM 反而不如基礎模型，這意味著如何在注入領域知識的同時保留基礎模型的通用能力，是未來值得關注的關鍵方向。
此外，論文還提醒業界：SFT 在 RL 之前的 “預熱” 階段同樣至關重要。如果過度 SFT ，模型可能會過早穩定化，削弱探索能力，從而影響后續 RL 的效果。因此，如何在保持多樣性的同時抑制遺忘，將是下一階段值得深入研究的重要課題。
總的來說，這項研究不僅重申了 SFT 的價值，也為大模型未來的微調與適配提供了新的思路：RL 可能是顯學，錦上添花；但 SFT 仍然是地基，沒有它就難以穩如磐石。

推薦閱讀

上一篇：消息稱HarmonyOS 6支持與蘋果設備互傳 10月22日正式發布

下一篇：語音助手「智商滑鐵盧」：當GPT開口說話，準確率從74.8%跌到6.1%