阿里Qwen、上交大等提出預訓練動態數據選擇范式OPUS

2026-04-24 ai 微電子 it芯片芯片半導體

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

在 “大模型預訓練” 這件事上，行業里幾乎有一條默認信條：想要更強，就得喂更多、更新、更高質量的數據。但最近一篇來自阿里巴巴、上海交大、UW–Madison 等團隊的工作，在 Hugging Face Daily Paper 沖上月度 Top1 后，直接把這個共識撕開了一道口子：只從中低質量數據里動態挑選，竟然能打贏 “高質量數據優先” 的經典訓練配方。

這條結論之所以讓社區炸鍋，不只是因為它 “反直覺” ，更因為它擊中了一個長期被忽略的問題：我們今天用 AdamW、Muon 訓練大模型，卻還在用偏 SGD 時代的思路給數據打分。說得更直白一點 —— 我們一直在拿 “舊地圖” 給 “新導航” 指路。而這篇工作真正厲害的地方是：它不是在 “玄學篩數據” 上做小修小補，而是把數據選擇這件事，第一次系統性地對齊到了優化器真正決定的更新方向上。

論文鏈接：https://arxiv.org/pdf/2602.0540
從 “數據饑渴” 到 “數據墻” ，預訓練進入 “每個 token 都要算賬” 的時代

過去十年，大模型能力提升的主旋律，是一條幾乎無人質疑的路徑：模型更大、數據更多、算力更猛。但今天，這條路正在撞上數據側的天花板 —— 高質量公共文本逐漸枯竭， “Data Wall（數據墻）” 正在浮現。預訓練也因此被迫從一個 “吞吐問題” ，轉向一個更關鍵的 “控制問題”：在第 t 步更新里，到底應該讓哪些 token 來決定模型往哪走？

圍繞這個問題，行業里常見的兩條路線都各有硬傷：

靜態過濾：一次打分，長期食用。優點是簡單、穩定、工程上好落地；但問題也很明顯：它默認數據價值是 “固定的” 。可現實是，模型會變強、訓練階段會切換、目標能力會遷移 —— 配方卻不變，容易越訓越 “鈍” 。動態選擇：能夠隨訓練過程實時調整，聽起來更合理；但大多數方法仍然默認 SGD 視角，用 “原始梯度” 來衡量樣本價值。問題在于：現實中的 LLM 訓練，早已全面轉向 AdamW、Muon 等現代優化器。作者指出：當優化器改變了 “實際更新方向” ，你用原始梯度選數據，就會出現一個 “方向偏差（misalignment gap）”—— 你以為喂的是有效訓練信號，優化器卻把更新投到另一條軌跡上。這就是 OPUS 的起點：數據選擇不能再 “優化器無關” 。

別替優化器點菜 —— 讓優化器自己決定 “這口飯有沒有用”

OPUS 的全稱很直白：Optimizer-induced Projected Utility Selection 。

它做了一件看起來 “理所當然” ，但過去很少被系統落實的事：

不再在 “原始梯度空間” 里評估樣本價值，而是把效用（utility）定義在 “優化器誘導的有效更新空間” 里。

換句話說，在 AdamW / Muon 訓練中，真正推動參數變化的，并不是原始梯度本身，而是經過優化器預處理之后的有效更新方向。 OPUS 做的，就是直接計算（或近似計算）每個候選樣本在當前 step 下對參數的 “有效推動” ，并進一步追問一個更本質的問題：如果我按 AdamW / Muon 的真實更新方式走這一步，這個樣本會不會讓模型在目標分布上變得更好？

于是， “數據選擇” 這件事就不再只是文本質量打分，也不只是梯度相似度技巧，而是被升級成一個更原則化的目標：最大化每一步更新的收益（utility）。

OPUS 的 “三件套”—— 目標對齊、可擴展估計、穩定選擇

從論文 Figure 3 可以看到， OPUS 在每個訓練 step 里，不再用原始梯度去 “猜” 樣本價值，而是把樣本效用定義在 AdamW / Muon 等優化器誘導的有效更新空間中。它的核心閉環可以概括為三步：

先對齊目標：構建與目標 benchmark 語義對齊的 Bench-Proxy 池，提供穩定的 “目標方向”；再高效估計：用 Ghost + CountSketch 近似估計候選樣本對 proxy 方向的對齊收益；最后穩定選擇：加入冗余懲罰，并通過 Boltzmann 軟采樣選出當步最合適的訓練樣本。
這套設計的關鍵意義在于：它讓 “數據選擇” 第一次真正和 “優化器實際執行的更新軌跡” 處在同一幾何、同一方向上，從而顯著提升預訓練效率與下游泛化表現。

1）效用怎么定義？—— 在 “有效更新空間” 里做對齊，而不是在原始梯度里 “看著像”

OPUS 把每個候選樣本的價值拆成兩部分：

Alignment（對齊收益）：樣本帶來的有效更新方向，是否與 “目標方向” 一致； Redundancy Penalty（冗余懲罰）：避免連續選到一堆方向高度相似的樣本，導致更新過于集中、訓練不穩、收益遞減。
這套設計把 “選最有用” 與 “選得多樣” 統一進同一個原則框架里：每一步不僅要更快下降，還要避免把更新壓成一條細線。

2）目標方向從哪來？——Bench-Proxy：既貼近 benchmark ，又不脫離預訓練流形

Bench-Proxy 并不是 “隨便找一批相似文本” 作為代理目標，而是通過一個檢索式構建流程得到的。具體來說，作者使用凍結的句向量模型，將：

目標評測基準的驗證集樣本（如 MMLU、HellaSwag 等），以及預訓練語料中的文檔
映射到同一語義空間，并計算余弦相似度。

隨后，對每篇預訓練文檔分配一個 “相關性分數”（例如基于其與 benchmark 樣本的最大相似度），再按分數排序并在給定 token 預算內選出一批文檔，構成 Bench-Proxy 池。這樣得到的代理池具有兩個優點：

語義上貼近目標 benchmark（有明確任務指向性）；分布上仍屬于預訓練語料流形（不會過度偏離預訓練過程）。
訓練過程中，模型反復從這個 proxy 池抽樣，用于提供更穩定、低噪聲的目標方向，從而讓每一步的數據選擇更可靠。這一點很關鍵：OPUS 不是直接拿 benchmark 當訓練數據，而是用 benchmark 去 “定義方向” ，再在預訓練分布里找可執行的推進路徑。

3）怎么把它做得足夠快？——Ghost + CountSketch ，把在線打分開銷壓到 “幾乎可忽略”

在線數據選擇最大的現實門檻，不是 “想法對不對” ，而是 “算不算得動” 。
你不可能在每個 step 都為大量候選樣本顯式計算全維梯度并逐一打分。

OPUS 的工程解法是一套組合拳：

Ghost technique：利用線性層梯度的結構（如外積形式），避免顯式構造完整高維梯度，降低顯存與計算開銷； CountSketch：將高維有效更新投影到低維 sketch 空間，在近似保持內積結構的前提下完成對齊、相似度與冗余相關計算； Boltzmann sampling：不直接貪心 top-k ，而是通過溫度控制的概率采樣進行軟選擇，在利用高分樣本的同時保留一定探索性，提升穩定性與多樣性。
結果是， OPUS 把 “每步在線選擇數據” 的額外成本壓到了一個可接受區間，使這件事在大規模預訓練中也具備實際可行性。

在論文的實現與測量中， OPUS 的額外計算開銷約為 4.7% ，使得 “每一步都做數據選擇” 在大規模訓練中也依然可承受。

實驗結果：不是小修小補，而是 “效率 + 性能” 同時抬頭

1）FineWeb 預訓練：平均 +2.2% 準確率， GPT-XL 上 8× 計算量節省

在 GPT-2 Large / XL 的 30B token 預訓練設置中， OPUS 在 10 個基準上對比隨機選擇取得平均 1.5% 的準確率提升；在 GPT-XL 上還展示了 8× 計算效率提升的結果（相同效果所需計算顯著降低）。更 “刺激” 的一點是：論文還報告 OPUS 能在某些設置中優于更大 token 預算（例如 60B token）訓練的對照配置 —— 強調 “每步選對比多吃更關鍵” 。

2）FineWeb-Edu：反直覺名場面 —— 只用中等質量數據，也能打贏 “吃高質量數據” 的基線

作者專門做了 “難度更高” 的對照：把數據按質量分層后， OPUS 只從中等質量（如 score 3）里動態挑選，卻能超過一些使用更高質量分區（score 4–5）訓練的強基線。在 GPT2 Large/XL 30B 使用 FineWeb-Edu 的預訓練設置中， OPUS 在 10 個基準上對比從高質量數據隨機選擇取得平均 3.18% 的準確率提升。它傳遞的信號很清晰：

數據質量很重要，但 “在正確的幾何里、在正確的時機喂對樣本” ，可能更重要。

除了主套件上的提升，論文還專門做了一組更 “刁鉆” 的檢驗：把同一批 GPT-2 XL checkpoint 拿去測不包含在 Bench-Proxy 構建目標里的 out-of-distribution 基準，包括 BBH、RACE、SuperGLUE 等。結果顯示， OPUS 仍然取得最佳平均表現，達到了 40.07 ，明顯高于隨機選擇以及多種靜態和動態篩選基線。這一點非常關鍵：它說明 OPUS 的收益并不是 “對齊 proxy 就刷 proxy” ，也不是把模型過擬合到那一小撮基準上；相反，即使評測換成 proxy 未覆蓋的 OOD 任務， OPUS 依然能穩定帶來泛化收益，側面印證了其 “在優化器誘導更新空間里選有效訓練信號” 的機制更接近提升真實能力，而非 benchmark 取巧。

3）Domain PPL: 驗證 “泛化而非刷分”

除了任務準確率，論文還用一個更 “底層” 的指標檢驗模型的廣譜語言建模能力：在 Health、Business、Politics、Education、History、Lifestyle、Science、ArtsLit.、Entertainment、Computing 等 10 個不同領域的保留驗證集上統計 PPL ，越低越好。結果非常穩定：在 FineWeb 上訓練 30B tokens 時， OPUS 在 GPT-2 Large 與 GPT-2 XL 兩個規模下都拿到最低的平均 PPL—— 分別是 3.35 與 3.26 ，優于 Random、DSIR、QuRating、GREATS 等基線。更有意思的是，在 FineWeb-Edu 這類 “更高質量” 的子集上， OPUS 仍然保持領先：GPT-2 Large 的平均困惑度降到 3.49 ， GPT-2 XL 進一步到 3.45 。這說明 OPUS 的提升不只體現在某幾個 benchmark 上 “刷分” ，而是在跨領域的語言建模質量上同樣帶來一致收益 —— 更接近一種可遷移、可泛化的訓練信號增益。

4）Continued Pre-training：Qwen3-8B 在 SciencePedia 上 0.5B token 追平 / 超過 3B token

更貼近產業的 CPT 場景里， OPUS 在 Qwen3-8B-Base 上繼續訓練 SciencePedia：僅用 0.5B tokens 就達到最優表現，并且超過隨機選擇訓練 3B tokens 的對照，等價于約 6× 的數據效率增益。對于 “專業域能力提升” 這種高成本任務，這種量級的效率提升極具吸引力。

作者還給出了 SciencePedia 的分領域拆解結果，把提升拆到 “每個科學子域” 上看清楚：在 0.5B ， 1B ， 1.5B 三個 token 預算下， OPUS 在 OlympicArena（圖中雷達圖，覆蓋 Math、Physics、Chemistry、Biology、Geography、Astronomy、CS、Text、以及多語種等維度）與 SciAssess（圖中柱狀圖， Biology/Chemistry/Material/Medicine 等子域）中都表現出更穩定、更加均衡的收益。更關鍵的是，這種增益并非只靠某一個 “強項領域” 拉動平均分：即使把平均分拆開看， OPUS 在多個子域上都能保持競爭力，尤其在 Material 與 Medicine 等更偏專業的方向上，優勢更明顯。總體上，這組分域結果支持了論文的核心論點：OPUS 的改進不是 “挑某個領域刷上去” ，而是在有限 token 預算下，把繼續預訓練的收益更有效地分配到不同科學子域，從而更接近 “用更少 token 覆蓋更廣能力” 的目標。

從 “挑數據” 到 “挑更新” ， OPUS 把預訓練的控制權還給了優化器

很多數據選擇方法都卡在一個經典矛盾里：要么原則弱，像經驗規則；要么原則強，但算不動。

OPUS 的可貴之處在于，它不是只在理論上更 “正確” ，也不是只在工程上更 “取巧” ，而是把兩者真正接到了一起：在原則上，它把樣本效用定義到與 AdamW / Muon 等現代優化器一致的有效更新空間中；在工程上，它又通過 Ghost + CountSketch + Boltzmann 軟采樣，把 “每個 step 在線做數據選擇” 的額外開銷壓到了可落地的范圍。

更重要的是， OPUS 并不排斥已有的數據工程手段，反而天然適合與靜態過濾協同：靜態過濾負責把明顯低價值樣本擋在門外， OPUS 負責在剩余候選中根據訓練動態做細粒度選擇。換句話說，它第一次比較完整地把 “數據治理” 與 “訓練動力學” 接成了一個閉環。

這也是 OPUS 最值得關注的地方：它真正想回答的，并不是 “如何更聰明地給數據打分” ，而是一個更底層的問題 —— 在現代優化器主導的訓練幾何里，什么樣的樣本，才能帶來真實有效的更新？當 “數據墻” 逼近、算力成本高企，預訓練已經不再只是 “堆更多數據就能贏” 的游戲，而進入了一個必須精打細算的階段：每一個 token ，都要為更新負責。
【阿里Qwen、上交大等提出預訓練動態數據選擇范式OPUS】
而 OPUS 給出的路線非常清晰，也很有啟發性：

數據選擇不該再做優化器無關的旁觀者，而應成為與優化器同幾何、同方向的在線控制器。

只有這樣，我們才有機會真正榨出 token 的邊際收益，把預訓練從 “數據吞吐戰” ，推進到 “更新效率戰” 。

作者介紹：

本文第一作者為王少博（上海交大 / 阿里 Qwen）、共同第一作者為歐陽軒（UW-Madison）、徐天一（UW–Madison）。通訊作者包括任星彰（阿里 Qwen）、劉大一恒（阿里 Qwen）與張林峰（上海交大）。其余合作者來自阿里、上交、UIUC、Mila 等單位。

推薦閱讀

上一篇：2000元價位亂殺？紅米驍龍8至尊版背后，不止是真香

下一篇：OpenClaw之后｜本周張江，來這場聊透「下一代智能體」的閉門組局