阿里Qwen、上交大等提出預訓練動態數據選擇范式OPUS

阿里Qwen、上交大等提出預訓練動態數據選擇范式OPUS

文章圖片

阿里Qwen、上交大等提出預訓練動態數據選擇范式OPUS

文章圖片

阿里Qwen、上交大等提出預訓練動態數據選擇范式OPUS

文章圖片

阿里Qwen、上交大等提出預訓練動態數據選擇范式OPUS

文章圖片

阿里Qwen、上交大等提出預訓練動態數據選擇范式OPUS

文章圖片

阿里Qwen、上交大等提出預訓練動態數據選擇范式OPUS

文章圖片




在 “大模型預訓練” 這件事上 , 行業里幾乎有一條默認信條:想要更強 , 就得喂更多、更新、更高質量的數據 。 但最近一篇來自阿里巴巴、上海交大、UW–Madison 等團隊的工作 , 在 Hugging Face Daily Paper 沖上月度 Top1 后 , 直接把這個共識撕開了一道口子:只從中低質量數據里動態挑選 , 竟然能打贏 “高質量數據優先” 的經典訓練配方 。



這條結論之所以讓社區炸鍋 , 不只是因為它 “反直覺” , 更因為它擊中了一個長期被忽略的問題:我們今天用 AdamW、Muon 訓練大模型 , 卻還在用偏 SGD 時代的思路給數據打分 。說得更直白一點 —— 我們一直在拿 “舊地圖” 給 “新導航” 指路 。 而這篇工作真正厲害的地方是:它不是在 “玄學篩數據” 上做小修小補 , 而是把數據選擇這件事 , 第一次系統性地對齊到了優化器真正決定的更新方向上 。



論文鏈接:https://arxiv.org/pdf/2602.0540
從 “數據饑渴” 到 “數據墻” , 預訓練進入 “每個 token 都要算賬” 的時代

過去十年 , 大模型能力提升的主旋律 , 是一條幾乎無人質疑的路徑:模型更大、數據更多、算力更猛 。 但今天 , 這條路正在撞上數據側的天花板 —— 高質量公共文本逐漸枯竭 , “Data Wall(數據墻)” 正在浮現 。 預訓練也因此被迫從一個 “吞吐問題” , 轉向一個更關鍵的 “控制問題”:在第 t 步更新里 , 到底應該讓哪些 token 來決定模型往哪走?

圍繞這個問題 , 行業里常見的兩條路線都各有硬傷:

靜態過濾:一次打分 , 長期食用 。 優點是簡單、穩定、工程上好落地;但問題也很明顯:它默認數據價值是 “固定的” 。 可現實是 , 模型會變強、訓練階段會切換、目標能力會遷移 —— 配方卻不變 , 容易越訓越 “鈍” 。 動態選擇:能夠隨訓練過程實時調整 , 聽起來更合理;但大多數方法仍然默認 SGD 視角 , 用 “原始梯度” 來衡量樣本價值 。 問題在于:現實中的 LLM 訓練 , 早已全面轉向 AdamW、Muon 等現代優化器 。作者指出:當優化器改變了 “實際更新方向” , 你用原始梯度選數據 , 就會出現一個 “方向偏差(misalignment gap)”—— 你以為喂的是有效訓練信號 , 優化器卻把更新投到另一條軌跡上 。 這就是 OPUS 的起點:數據選擇不能再 “優化器無關” 。

別替優化器點菜 —— 讓優化器自己決定 “這口飯有沒有用”



OPUS 的全稱很直白:Optimizer-induced Projected Utility Selection 。

它做了一件看起來 “理所當然” , 但過去很少被系統落實的事:

不再在 “原始梯度空間” 里評估樣本價值 , 而是把效用(utility)定義在 “優化器誘導的有效更新空間” 里 。

換句話說 , 在 AdamW / Muon 訓練中 , 真正推動參數變化的 , 并不是原始梯度本身 , 而是經過優化器預處理之后的有效更新方向 。 OPUS 做的 , 就是直接計算(或近似計算)每個候選樣本在當前 step 下對參數的 “有效推動” , 并進一步追問一個更本質的問題:如果我按 AdamW / Muon 的真實更新方式走這一步 , 這個樣本會不會讓模型在目標分布上變得更好?

于是 , “數據選擇” 這件事就不再只是文本質量打分 , 也不只是梯度相似度技巧 , 而是被升級成一個更原則化的目標:最大化每一步更新的收益(utility) 。

OPUS 的 “三件套”—— 目標對齊、可擴展估計、穩定選擇



從論文 Figure 3 可以看到 , OPUS 在每個訓練 step 里 , 不再用原始梯度去 “猜” 樣本價值 , 而是把樣本效用定義在 AdamW / Muon 等優化器誘導的有效更新空間中 。 它的核心閉環可以概括為三步:

先對齊目標:構建與目標 benchmark 語義對齊的 Bench-Proxy 池 , 提供穩定的 “目標方向”; 再高效估計:用 Ghost + CountSketch 近似估計候選樣本對 proxy 方向的對齊收益; 最后穩定選擇:加入冗余懲罰 , 并通過 Boltzmann 軟采樣 選出當步最合適的訓練樣本 。
這套設計的關鍵意義在于:它讓 “數據選擇” 第一次真正和 “優化器實際執行的更新軌跡” 處在同一幾何、同一方向上 , 從而顯著提升預訓練效率與下游泛化表現 。

1)效用怎么定義?—— 在 “有效更新空間” 里做對齊 , 而不是在原始梯度里 “看著像”



OPUS 把每個候選樣本的價值拆成兩部分:

Alignment(對齊收益):樣本帶來的有效更新方向 , 是否與 “目標方向” 一致; Redundancy Penalty(冗余懲罰):避免連續選到一堆方向高度相似的樣本 , 導致更新過于集中、訓練不穩、收益遞減 。
這套設計把 “選最有用” 與 “選得多樣” 統一進同一個原則框架里:每一步不僅要更快下降 , 還要避免把更新壓成一條細線 。

2)目標方向從哪來?——Bench-Proxy:既貼近 benchmark , 又不脫離預訓練流形

Bench-Proxy 并不是 “隨便找一批相似文本” 作為代理目標 , 而是通過一個檢索式構建流程得到的 。 具體來說 , 作者使用凍結的句向量模型 , 將:

目標評測基準的驗證集樣本(如 MMLU、HellaSwag 等) , 以及 預訓練語料中的文檔
映射到同一語義空間 , 并計算余弦相似度 。

隨后 , 對每篇預訓練文檔分配一個 “相關性分數”(例如基于其與 benchmark 樣本的最大相似度) , 再按分數排序并在給定 token 預算內選出一批文檔 , 構成 Bench-Proxy 池 。 這樣得到的代理池具有兩個優點:

語義上貼近目標 benchmark(有明確任務指向性); 分布上仍屬于預訓練語料流形(不會過度偏離預訓練過程) 。
訓練過程中 , 模型反復從這個 proxy 池抽樣 , 用于提供更穩定、低噪聲的目標方向 , 從而讓每一步的數據選擇更可靠 。 這一點很關鍵:OPUS 不是直接拿 benchmark 當訓練數據 , 而是用 benchmark 去 “定義方向” , 再在預訓練分布里找可執行的推進路徑 。

3)怎么把它做得足夠快?——Ghost + CountSketch , 把在線打分開銷壓到 “幾乎可忽略”

在線數據選擇最大的現實門檻 , 不是 “想法對不對” , 而是 “算不算得動” 。
你不可能在每個 step 都為大量候選樣本顯式計算全維梯度并逐一打分 。

OPUS 的工程解法是一套組合拳:

Ghost technique:利用線性層梯度的結構(如外積形式) , 避免顯式構造完整高維梯度 , 降低顯存與計算開銷; CountSketch:將高維有效更新投影到低維 sketch 空間 , 在近似保持內積結構的前提下完成對齊、相似度與冗余相關計算; Boltzmann sampling:不直接貪心 top-k , 而是通過溫度控制的概率采樣進行軟選擇 , 在利用高分樣本的同時保留一定探索性 , 提升穩定性與多樣性 。
結果是 , OPUS 把 “每步在線選擇數據” 的額外成本壓到了一個可接受區間 , 使這件事在大規模預訓練中也具備實際可行性 。



在論文的實現與測量中 , OPUS 的額外計算開銷約為 4.7% , 使得 “每一步都做數據選擇” 在大規模訓練中也依然可承受 。

實驗結果:不是小修小補 , 而是 “效率 + 性能” 同時抬頭

1)FineWeb 預訓練:平均 +2.2% 準確率 , GPT-XL 上 8× 計算量節省

在 GPT-2 Large / XL 的 30B token 預訓練設置中 , OPUS 在 10 個基準上對比隨機選擇取得平均 1.5% 的準確率提升;在 GPT-XL 上還展示了 8× 計算效率提升的結果(相同效果所需計算顯著降低) 。 更 “刺激” 的一點是:論文還報告 OPUS 能在某些設置中優于更大 token 預算(例如 60B token)訓練的對照配置 —— 強調 “每步選對比多吃更關鍵” 。



2)FineWeb-Edu:反直覺名場面 —— 只用中等質量數據 , 也能打贏 “吃高質量數據” 的基線

作者專門做了 “難度更高” 的對照:把數據按質量分層后 , OPUS 只從中等質量(如 score 3)里動態挑選 , 卻能超過一些使用更高質量分區(score 4–5)訓練的強基線 。 在 GPT2 Large/XL 30B 使用 FineWeb-Edu 的預訓練設置中 , OPUS 在 10 個基準上對比從高質量數據隨機選擇取得平均 3.18% 的準確率提升 。 它傳遞的信號很清晰:

數據質量很重要 , 但 “在正確的幾何里、在正確的時機喂對樣本” , 可能更重要 。





除了主套件上的提升 , 論文還專門做了一組更 “刁鉆” 的檢驗:把同一批 GPT-2 XL checkpoint 拿去測 不包含在 Bench-Proxy 構建目標里的 out-of-distribution 基準 , 包括 BBH、RACE、SuperGLUE 等 。 結果顯示 , OPUS 仍然取得最佳平均表現 , 達到了 40.07 , 明顯高于隨機選擇以及多種靜態和動態篩選基線 。 這一點非常關鍵:它說明 OPUS 的收益并不是 “對齊 proxy 就刷 proxy” , 也不是把模型過擬合到那一小撮基準上;相反 , 即使評測換成 proxy 未覆蓋的 OOD 任務 , OPUS 依然能穩定帶來泛化收益 , 側面印證了其 “在優化器誘導更新空間里選有效訓練信號” 的機制更接近提升真實能力 , 而非 benchmark 取巧 。

3)Domain PPL: 驗證 “泛化而非刷分”

除了任務準確率 , 論文還用一個更 “底層” 的指標檢驗模型的廣譜語言建模能力:在 Health、Business、Politics、Education、History、Lifestyle、Science、ArtsLit.、Entertainment、Computing 等 10 個不同領域的保留驗證集上統計 PPL , 越低越好 。 結果非常穩定:在 FineWeb 上訓練 30B tokens 時 , OPUS 在 GPT-2 Large 與 GPT-2 XL 兩個規模下都拿到最低的平均 PPL—— 分別是 3.35 與 3.26 , 優于 Random、DSIR、QuRating、GREATS 等基線 。 更有意思的是 , 在 FineWeb-Edu 這類 “更高質量” 的子集上 , OPUS 仍然保持領先:GPT-2 Large 的平均困惑度降到 3.49 , GPT-2 XL 進一步到 3.45 。 這說明 OPUS 的提升不只體現在某幾個 benchmark 上 “刷分” , 而是在跨領域的語言建模質量上同樣帶來一致收益 —— 更接近一種可遷移、可泛化的訓練信號增益 。

4)Continued Pre-training:Qwen3-8B 在 SciencePedia 上 0.5B token 追平 / 超過 3B token

更貼近產業的 CPT 場景里 , OPUS 在 Qwen3-8B-Base 上繼續訓練 SciencePedia:僅用 0.5B tokens 就達到最優表現 , 并且超過隨機選擇訓練 3B tokens 的對照 , 等價于約 6× 的數據效率增益 。 對于 “專業域能力提升” 這種高成本任務 , 這種量級的效率提升極具吸引力 。



作者還給出了 SciencePedia 的分領域拆解結果 , 把提升拆到 “每個科學子域” 上看清楚:在 0.5B , 1B , 1.5B 三個 token 預算下 , OPUS 在 OlympicArena(圖中雷達圖 , 覆蓋 Math、Physics、Chemistry、Biology、Geography、Astronomy、CS、Text、以及多語種等維度)與 SciAssess(圖中柱狀圖 , Biology/Chemistry/Material/Medicine 等子域)中都表現出更穩定、更加均衡的收益 。 更關鍵的是 , 這種增益并非只靠某一個 “強項領域” 拉動平均分:即使把平均分拆開看 , OPUS 在多個子域上都能保持競爭力 , 尤其在 Material 與 Medicine 等更偏專業的方向上 , 優勢更明顯 。 總體上 , 這組分域結果支持了論文的核心論點:OPUS 的改進不是 “挑某個領域刷上去” , 而是在有限 token 預算下 , 把繼續預訓練的收益更有效地分配到不同科學子域 , 從而更接近 “用更少 token 覆蓋更廣能力” 的目標 。



從 “挑數據” 到 “挑更新” , OPUS 把預訓練的控制權還給了優化器

很多數據選擇方法都卡在一個經典矛盾里:要么原則弱 , 像經驗規則;要么原則強 , 但算不動 。

OPUS 的可貴之處在于 , 它不是只在理論上更 “正確” , 也不是只在工程上更 “取巧” , 而是把兩者真正接到了一起:在原則上 , 它把樣本效用定義到與 AdamW / Muon 等現代優化器一致的有效更新空間中;在工程上 , 它又通過 Ghost + CountSketch + Boltzmann 軟采樣 , 把 “每個 step 在線做數據選擇” 的額外開銷壓到了可落地的范圍 。

更重要的是 , OPUS 并不排斥已有的數據工程手段 , 反而天然適合與靜態過濾協同:靜態過濾負責把明顯低價值樣本擋在門外 , OPUS 負責在剩余候選中根據訓練動態做細粒度選擇 。換句話說 , 它第一次比較完整地把 “數據治理” 與 “訓練動力學” 接成了一個閉環 。

這也是 OPUS 最值得關注的地方:它真正想回答的 , 并不是 “如何更聰明地給數據打分” , 而是一個更底層的問題 —— 在現代優化器主導的訓練幾何里 , 什么樣的樣本 , 才能帶來真實有效的更新?當 “數據墻” 逼近、算力成本高企 , 預訓練已經不再只是 “堆更多數據就能贏” 的游戲 , 而進入了一個必須精打細算的階段:每一個 token , 都要為更新負責 。
【阿里Qwen、上交大等提出預訓練動態數據選擇范式OPUS】
而 OPUS 給出的路線非常清晰 , 也很有啟發性:

數據選擇不該再做優化器無關的旁觀者 , 而應成為與優化器同幾何、同方向的在線控制器 。

只有這樣 , 我們才有機會真正榨出 token 的邊際收益 , 把預訓練從 “數據吞吐戰” , 推進到 “更新效率戰” 。

作者介紹:

本文第一作者為王少博(上海交大 / 阿里 Qwen)、共同第一作者為歐陽軒(UW-Madison)、徐天一(UW–Madison) 。 通訊作者包括任星彰(阿里 Qwen)、劉大一恒(阿里 Qwen)與張林峰(上海交大) 。 其余合作者來自阿里、上交、UIUC、Mila 等單位 。

    推薦閱讀