OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

文章圖片

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

文章圖片

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

文章圖片

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

文章圖片

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

文章圖片

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

文章圖片

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

文章圖片

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

文章圖片

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

文章圖片

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

文章圖片

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

文章圖片

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

文章圖片

OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密

OpenAI的o4 , 已經在訓練了?
就在最近 , SemiAnalysis發表了一篇硬核長文博客 , 爆料了不少大模型圈的內幕消息 。
其中 , 一些最核心的亮點 , 先一睹為快:
OpenAI正在訓練一個規模介于GPT-4.1和GPT-4.5之間的新模型
下一代推理模型o4將基于GPT-4.1展開RL訓練
強化學習改變了實驗室結構 , 甚至是大廠未來研究的側重方向和優先級
定義獎勵函數難上加難 , 往往AI鉆空子之后 , 漏洞才能被發現
不犧牲LLM任何性能 , 不用合并權重 , RL另一條路——數據混合
與預訓練不同 , RL可持續更新Scaling模型能力 , DeepSeek-R1是典例
高質量數據是Scaling強化學習的護城河
訓練小模型 , 蒸餾效果要比RL更好

新一輪預訓練已開始首先 , 讓我們看看其中最硬的內容——關于OpenAI的全新模型 。
因為現在星際之門超算還未建成 , 所以今年OpenAI的計算集群規模不會有顯著增長 , 因此顯然無法在算力上進一步擴大預訓練規模 。
不過 , 這并不意味著 , OpenAI會停止預訓練新模型 。
如今 , 預訓練已經比任何時候都更為重要 。 在不犧牲模型智能水平的前提下 , 哪怕只是小幅降低推理成本 , 都能極大節約開銷 , 加快RL的反饋循環 , 催生更大的進步 。
多個實驗室的研究表明 , 中等規模模型的RL反饋循環速度已經超過了大型模型 。
而如開頭所提 , OpenAI的新模型規模就在GPT-4.5和GPT-4/GPT-4.1之間 。
隨著RL規模的持續擴大 , 這些稍大的模型不僅會擁有更強的學習能力 , MoE的稀疏度也會更高 。

OpenAI o4要來了而o4模型 , 就非常有望成為OpenAI在推理領域的下一款重磅產品 。
可以說 , o4標志著OpenAI策略的轉變 , 核心原因就在于 , 他們更換了訓練所用的基礎模型 。
因為基礎模型決定了性能的下限 , 因此 , 用于進行RL的基礎模型越好 , 最終效果也越好 。
然而 , 要在模型強度和RL訓練的實用性之間找到完美的平衡點 , 是非常棘手的事 。
因為RL需要海量的推理計算和大量的序列采樣 , 如果目標模型過于龐大 , RL的成本將極其高昂 。
此前 , OpenAI一直在GPT-4o的基礎上為o1和o3模型進行RL訓練 , 但到o4時 , 情況將發生變化 。
o4系列模型將基于GPT-4.1 。
GPT-4.1的推理成本很低 , 同時具備強大的基準代碼性能 , 無疑是未來推理產品的理想基礎模型 。
而且 , GPT-4.1的實力顯然被嚴重低估了——它非常實用 , 在Cursor上得到了廣泛應用 , 為許多強大的新產品開啟了大門 。
目前 , Anthropic已經在代碼能力顯出絕對優勢 , OpenAI顯然也不甘落后 。 轉向GPT-4.1 , 顯然就是非常重要的一步行動 。
雖然SWE-Bench這樣的基準可以衡量模型能力 , 但最終的商業收入 , 還是要取決于定價策略 。
在SemiAnalysis看來 , Cursor的實際使用情況 , 才是檢驗模型應用價值的終極試金石 。

推理模型大躍進 , RL是最大功臣如今 , 推理時Scaling的范式 , 正在蓬勃發展 , 推理模型也在快速進步 。
在衡量現實世界軟件工程任務(如SWE-Bench)的評估中 , 模型正在以更低的成本 , 獲得更高的分數 。
這背后的功臣 , 當然就是強化學習 。 它通過生成CoT , 解鎖了模型的推理能力 。
此外 , 因為模型現在能夠維持長時間的連貫思考 , 也就順勢解鎖了AI智能體的潛力 。
它們能勝任更復雜的計算機任務 , 比如全自動化的遠程辦公和系統工程/架構設計 。
不過 , 在擴展強化學習算力上 , 整個基礎設施都面臨著新的瓶頸 。
在AGI到來前 , RL可能是我們需要的最后一個關鍵范式 。
因為蘊含著巨大機遇 , 它所需的投資規模也同樣龐大 。 現在 , 已經有十數億美元資金投入 , 未來還會有更多 。
不過 , 強化學習對于基礎設施的要求 , 卻是截然不同的 。
我們究竟需要為此付出什么?

RL的工作原理RL的概念很簡單 。
一個RL模型會從任意環境的當前狀態中獲取信息 , 為選擇一個動作生成一組概率 , 然后執行該動作 。
模型的目的 , 是達成一個由「獎勵函數」定義的目標 。
強化學習的過程 , 就是通過改變模型權重 , 使其更有可能生成那些能帶來更高獎勵的動作 。
可以說 , RL是一項古老的技術 , 比LLM出現得更早 。 當年戰勝圍棋與國際象棋冠軍的系統背后 , RL都是背后支柱 。
不過直到最近 , RL才終于成功應用于LLM 。 這對模型能力和普及 , 都產生了深遠的影響 。

可驗證的獎勵在LLM中 , RL在那些擁有可驗證獎勵的領域表現最佳 。
這意味著 , 對于編碼和數學這類任務 , RL所必需的獎勵函數有著明確的定義 。 而在那些獎勵函數定義較為模糊的領域 , 推理模型就難以取得進步 。
當OpenAI在GPT-4o的基礎上通過RL訓練出o1時 , 性能提升最顯著的 , 也正是在這些擁有可驗證獎勵的領域 。
我們都知道 , OpenAI的o3可以放大圖片 , 根據所見內容進行推理、計算、再次推理 , 最后給出答案 。
因此 , 它識別照片拍攝地的超凡能力 , 驚艷了一大批網友 。
最令人意外的是 , o3模型并未針對這種任務進行過專門訓練 。
不過 , 跟預訓練的投入相比 , 各大實驗室投入在RL上的資金卻并不多 。
在這里 , SemiAnalysis就提出了關鍵問題——
要讓RL的計算資源投入追上甚至超過預訓練 , 瓶頸何在?
那些獎勵不可驗證的領域 , 未來能否被攻克?

推理開銷巨大通過研究一種最流行的RL算法 , 我們能一窺其巨大的推理開銷 。
組相對策略優化(Group Relative Policy Optimization GRPO)是一種常用算法 , 因為DeepSeek用它來訓練R1模型而名聲大噪 。
在GRPO算法中 , 模型需要回答一個問題 , 并針對該問題生成多個候選答案 。 每個答案都可以看作一次「推演 (rollout)」 , 本質上是模型在嘗試尋找解決方案 。
針對每個問題的推演次數從幾次到上百次不等 , 雖然沒有技術上限 , 但推演次數越多 , 占用的內存和計算資源就越多 。
由于每個問題都要生成海量答案 , 這使得RL成為一種推理密集型任務 。 這一點的影響尤其重大 , 因此將在后續部分被反復提及 。
接下來 , 模型生成的答案會與一個標準答案進行比對評分 。 在GRPO中 , 每個答案都會獲得一個獎勵分數 。
計算出獎勵分數后 , 模型會通過梯度下降算法進行更新 , 以提高生成那些能獲得正向獎勵的答案的概率 。
GRPO 是近端策略優化(PPO)的一種變體 , 它不需要PPO中的評論家模型(critic model) , 因此內存效率更高 。
PPO和GRPO既可以采用學習出來的獎勵模型 , 也可以使用基于規則的獎勵系統來評判答案質量 。
由于內存需求較低 , GRPO在開源社區被廣泛采用 , 但頂尖實驗室應該大多會繼續使用PPO的各種變體 。
PPO由OpenAI 發明 , 其內部使用的版本與GRPO通常對標的公開版本已有實質性不同 , 而且這些實驗室面臨的計算資源限制也更少 。
其核心思想在于 , RL通常需要一個問題、一個用于核對的標準答案 , 以及一種向模型傳遞信號以指導其行為調整方向的機制 。
模型探索答案的方式多種多樣 , 但都要求以多次不同推演的形式生成多個候選答案 , 因此對推理端的資源要求很高 。
隨后 , 模型會被更新 , 以提高正確答案的出現概率 , 所以這個過程也隱含了訓練的環節 。

獎勵函數難定如前所述 , 強化學習在可驗證獎勵的領域已取得長足進步 , 原因之一在于這類任務的獎勵函數很容易定義——例如 , 數學題的答案非對即錯 。
然而 , 從技術上講 , 獎勵函數可以是用戶想要優化的任何目標 。
從概念上講 , 強化學習模型的主要目標是最大化總獎勵 。
以訓練模型下國際象棋為例 , 首要目標就是在不違規的前提下贏得比賽 。 模型可以通過在不同棋局中學習哪些走法有助于獲勝 , 來不斷提升棋力 , 還能從所處環境中獲得反饋 。
不過 , 如果涉及到更寬泛的任務定義獎勵 , 就更像是一門「玄學」了 , 因為它實在難以恰到好處地把握 。
即便是在目標明確的環境中 , 要設定一個理想的獎勵函數 , 也需要大量的研究、測試和優化 。
芯片設計就是一個很好的例子 。
谷歌為輔助芯片設計而開發的AlphaChip模型 , 就采用了強化學習訓練 。
這個模型協助設計了谷歌的TPUv6芯片 , 并成功將其線長(wirelength)縮短了 6.2% 。 在這個案例中 , 獎勵函數被明確定義為:
這個函數引導模型去精確地最小化幾個關鍵因素:線長、擁塞度和密度 。
值得注意的是 , 即便是這樣一個相對簡單的獎勵函數 , 其設置過程也絕非易事 。 擁塞度和密度都帶有一個標量值(α和γ)來調整其權重 。
這些數值是工程師們基于期望的權衡取舍 , 通過大量實驗得出的最終結論 , 即線長是首要優化因素 。
而在寫作、策略規劃這些領域 , 往往并不存在明確的標準答案 , 屬于不可驗證的領域 。
曾有人懷疑:是否有可能在這些領域應用強化學習?SemiAnalysis認為 , 這完全可行 , 而且已經實現了 。
要做到這一點并不難 , 只需要改變獎勵機制:不再依賴形式化的驗證器進行檢查 , 而是利用其他模型 , 依據一套評分標準(rubric)來判斷答案的優劣 。
OpenAI正是使用強化學習來調整模型行為 , 這比數學問題更為抽象 。
在關于審慎對齊(deliberative alignment)的論文中 , OpenAI用了一個LLM作為「評判員」 , 并依據一套評分標準 , 通過強化學習來確保模型更安全、減少對無害請求的錯誤拒絕 。
并且 , 這個過程完全使用的合成數據 。
正如前文所述 , 他們還發現此方法「在分布外的安全場景中展現出強大的泛化能力」 。
因此 , 這種方法已被用于訓練o1、o3-mini和o4-mini , 還會繼續應用于未來的推理模型 。
推理能力不僅對解決數學問題至關重要 , 對于那些不可驗證的任務也大有用處 。
比如在很多情況下 , 更強的推理能力能幫助模型更好地判斷何時應該拒絕用戶的請求 。
但不可否認 , 在不可驗證領域 , 某些因素的影響會更大 , 比如模型的「個性」會極大影響其寫作風格 。
此外 , 應用于不可驗證領域的強化學習也更加多變 。
比如之前被熱議的GPT-4o「諂媚」行為 , 部分原因就是OpenAI基于用戶偏好數據進行強化學習的結果 。
這就說明 , 一個本意良好的獎勵函數 , 也可能會導致不良行為 。

o3善用工具 , 核心在這兒o3模型已清晰地展示了強化學習的有效性 , 尤其是對外部工具的高級運用上 。
o3的表現證明:擁有智能固然重要 , 但能夠接觸并善用工具則更為關鍵 。
為了實現這一能力 , OpenAI采取了幾個關鍵措施 。
首先 , 要確保模型能接入工具 。 這可以作為更廣泛基礎設施的一部分來實現(例如 , 讓模型能訪問特定環境) 。
在模型層面 , 工具的調用可以通過特殊的Token來觸發 。
例如 , 讓模型使用像
通過賦予模型訪問多種不同特殊Token的能力 , 它便能快速便捷地接入不同的環境 。
另一項核心挑戰在于 , 該選擇恰當的問題集進行訓練?
即便模型能訪問工具 , 如果問題本身并不需要 , 它也可能選擇完全不使用 。
因此 , 為了有效地訓練模型 , 需要提供足夠困難、必須借助工具才能解決的問題 , 從而確保模型學會自然地利用外部資源 。 要把握好這個度非常困難 , 需要大量測試來驗證 。
同時 , 過度使用工具也可能降低性能 , 使獎勵信號變得復雜 , 從而影響整體效果 。
其他關鍵因素還包括:確保每次「推演 」都有豐富的初始狀態 , 且每個起點都能生成多種響應 , 以提升穩定性和學習效率;對格式錯誤的輸出施加懲罰;以及對正確使用的標簽給予獎勵 。
總而言之 , 打造一個o3級別的模型 , 關鍵在于兩點——
一是通過特殊Token等方式 , 為模型提供訪問多種工具的權限;二是在那些能「迫使」模型使用這些工具的問題上進行訓練 。

變相獎勵 , o3幻覺嚴重盡管在信息查找和研究方面能力出眾 , o3卻因其嚴重的幻覺問題而飽受詬病 。
它會頻繁地無中生有 , 并且隨著rl計算規模的增加 , 這個問題甚至變得更加嚴重 。 這究竟是為什么?
高級分析師認為 , 這歸根結底在于這些模型的訓練方式 。
模型通常只因最終結果正確而獲得獎勵 , 其推理過程是否正確卻不被考量 , 這使得它們能夠通過有缺陷的邏輯「蒙混過關」 , 得到正確答案 。
比如 , 一個模型即便誤解了規則 , 也可能在一個簡單的棋盤游戲中獲勝 , 從而錯誤地認為其有缺陷的推理是可接受的 。
這種機制不僅沒有懲罰模型的錯誤思維 , 反而對其進行了變相的獎勵 。
SemiAnalysis推測 , 這種情況不僅限于棋盤游戲 。
這無意中讓模型學會在新的、未經訓練的場景中產生幻覺 , 將有缺陷的推理能力泛化到更廣泛的領域 。
讓推理更強模型作為評判員 , 能起到一定效果 , 因為它們可以糾正整個推理鏈(reasoning trace) 。
其他的思路包括 , 設計更精細的獎勵信號 , 比如對每個輸出Token給予不同獎勵 , 從而在獎勵正確答案的同時 , 懲罰不正確的邏輯 。
需要明確的是 , 這種不當的獎勵行為也會影響到代碼生成等任務 。
一個模型可能編寫出質量很差的代碼 , 卻依然能通過單元測試 。 這更加凸顯了設計正確獎勵函數的必要性 。

AI自進化 , 用RL優化RL強化學習不僅能提升LLM性能 , 還能優化自身 , 形成一個良性循環 。
這種「RL優化RL」的方式 , 依賴于大語言模型評判員(LLM-Judge)和評分標準(rubric) , 來提供強化學習信號 。
當一個推理能力更強的模型被用作評判員時 , 它能更好地理解評分標準 , 并從其他模型的回答中識別出更細微的差別 。
比如 , OpenAI的Deep Reaearch項目中 , 展示了RL如何推動不可驗證領域的進步 , 成為了一個典范 。
無論是可驗證任務 , 還是不可驗證的任務 , OpenAI都通過另一個LLM依據評分標準進行評判 。
同樣 , Qwen-3也采用了類似的方法 , 利用海量合成數據結合LLM-Judge , 在沒有參考答案的情況下提供學習信號 。
SemiAnalysis認為 , 「評分標準」這種模式為許多領域開啟了新的可能性 。
再比如 , OpenAI曾邀請超260名醫生來編寫評估標準——HealthBench, 用于評估模型在醫療問答任務中的表現 。
作為公開的評估標準 , HealthBench反映出LLM-Judge , 在衡量那些獎勵不可驗證的任務性能方面非常強大 。
一旦性能可以被衡量 , 它就可以通過強化學習來提升 。
這突顯了RL與評估之間一種被低估了的關系——后者能夠清晰地揭示RL的訓練進展和效果 。

「遞歸自我改進」已經展開上面提到 , 通過讓更強的模型在強化學習中擔任更出色的評判員 , 可以實現自我改進 。
但這里還有另一個重要維度值得考量:讓模型本身來幫助訓練和編寫下一個模型 。
Anthropic在其Claude 4的系統卡片中 , 就具體展示了頂尖實驗室的這種思考 。 他們對編譯器開發、內核工程 , 甚至是一個四足機器人的強化學習任務都進行了評估 。
事實上 , 目前各大實驗室所做的 , 正是那些旨在榨干硬件每一分性能的、艱難的工程工作 。
編譯器、內核、內存管理優化、超參數調優等等 , 這些都是可以被量化和改進的編程任務 , 并且每一項都對模型的效率有著巨大影響 。
「遞歸自我改進」常常被描述成一個聽起來充滿誘惑、前景宏大的術語 , 但現實是 , 它在一定程度上已經發生 。
【OpenAI新模型,被曝秘密訓練中,萬字硬核長文直指o4核心秘密】實驗室還可以通過針對這些具體任務進行強化學習來持續加碼 , 并擁有大量專攻于此的內部模型變體 。
這種自我改進最初將主要圍繞那些不易察覺的、繁重枯燥的底層工作 , 然后逐步滲透到新模型架構的研究中去 。
當前的模型還無法極大地加速開發進程 。
但OpenAI的Codex工具已經在幫助員工構建下一個版本的模型 。
理解自我改進的關鍵在于 , 模型將讓工程師們花更少的時間在編碼上 , 從而能投入更多時間去思考研究和數據等核心問題 。 只要模型開發的瓶頸在于工程投入 , 這些瓶頸終將被化解 。
不過 , 現實中的模型開發還受制于計算資源等多種因素 。
真正的遞歸自我提升將顯著加速研究與數據進程 。

環境要進行強化學習 , 就需要對某個行為或結果進行「強化」 。
實現這一點前提是 , 模型/AI智能體必須在一個「環境」中 , 獲得反饋 , 從而理解下一步該采取什么行動 。
這催生了「強化學習執行反饋」(Reinforcement Learning from Execution Feedback RLEF)的出現 , 即在環境中運行模型生成的代碼 , 并將執行結果作為獎勵信號 。
所謂「環境」 , 就是模型采取行動并接收反饋的場景或模擬系統 , 比如國際象棋、圍棋棋盤游戲 , 便是環境的絕佳范例 。
它們目標明確 , 規則清晰 。
隨著通用性的提升 , AI進入了更廣闊的領域 , 比如在電子游戲中賽車 , 或在生物反應器模擬中控制一組特定參數 。
在此之外 , 它們還會遇到數學、編程甚至瀏覽器 , 這樣更為開放的環境 。
環境的配置不同 , 可能導致AI智能體的行為大相徑庭 。
若環境配置不當 , 可能使模型誤解任務或無法正確地泛化其能力 , 會導致「獎勵黑客」(reward hacking) 。
也就是說 , 模型在此學會了鉆函數的空子 , 并非真正去完成任務 。
比如 , 一個注重通過單元測試的編程環境 , 可能導致模型專注于「應付測試」 , 而非編寫出高質量代碼 。
因此 , 構建一個穩健的環境 , 并確保其獎勵函數能夠精確反映預期目標 , 是一項極其困難的工程挑戰 。
一個合格的環境需要滿足諸多要求 。
延遲就是其中一個關鍵因素 , 延遲過高可能會導致資源浪費 , 「推演」(rollout)效率低下 。
其他考量還包括:連接必須持續可靠 , 避免系統崩潰中斷進程;同時需要設置容錯機制和檢查點機制 , 確保故障能被平穩處理;還必須能夠妥善處理多個并行的推演或軌跡 。
除此之外 , 還需要一整套安全基礎設施作為支撐 , 以保護模型免遭外部滲透 , 或防止其試圖「逃離」環境 。
模型本身的一些失誤模式也讓問題變得復雜 , 比如它可能會采取耗盡機器資源的行動 。
同時 , 環境必須能準確地模擬真實場景 , 讓智能體明白該從何處改進 , 并且要杜絕被智能體黑客利用的可能性 。
所有這些要求 , 使得環境的規模化變得異常困難 , 尤其是初次嘗試時 。
盡管基礎設施工程看似平淡無奇 , 但它對強化學習的成功至關重要 。 如果推演過程耗時過長 , 用于驗證的模型就會閑置 , 造成資源浪費 。
因此 , 如何讓這些模型在等待期間執行其他任務 , 比如評判另一個LLM推演結果 , 就成了一個重要問題 。
這些軟件層面的限制 , 還必須與硬件層面的約束相適配 , 比如多數環境在CPU而非GPU上運行 , 進一步增加了工程復雜性 。
更重要的是 , 環境必須放置模型利用漏洞 。
像o3這類模型 , 是基于支持多次工具調用的復雜環境 , 隨著工具調用增加 , 環境復雜度也隨之上升 , 帶來了一系列新挑戰 。

獎勵黑客如前所述 , 設定一個恰當的獎勵可能非常困難 , 因為模型可能會誤解目標 , 并以一種不理想的方式進行優化 。
當模型利用環境或獎勵結構中的漏洞 , 在并未真正完成預期任務的情況下獲得高分時 , 就發生了「獎勵黑客」(Reward Hacking) 。
早在2016年 , 現Anthropic創始人Dario Amodei就指出了「獎勵黑客」這一問題 。
舉個例子 , 一個機械臂的任務是將紅色積木疊在藍色積木上方 , 并以此獲得獎勵 。
但在演示中 , 它直接翻轉倒置了紅色積木 , 并非按照堆疊方式完成任務 , 鉆了獎勵的空子 。
這便是因為 , 獎勵的評判標準僅僅是紅色積木底面的高度 。
另一個失敗模式的例子是 , 在教機器人行走的物理模擬中 , 一個智能體發現了軟件漏洞——
完全不用邁步 , 水平移動也可以 , 實屬有點6 。
在LLM案例中 , Claude 3.7 Sonnet也表現出了獎勵黑客行為:修改測試用例 , 而非改進自身代碼來通過原始測試 。
Anthropic雖采取了部分緩解措施 , 但這種行為模式在Claude 3.7中依然存在 。
盡管這些案例聽起來有趣 , 但真正的問題在于:
工程師們往往無法精確地定義獎勵函數 , 而且往往是在AI智能體已經利用了環境中的漏洞之后 , 他們才能發現 。
也就是說 , 許多獎勵黑客的路徑 , 都是設計者從未設想過的 。
雖然在訓練過程中可以迭代修正 , 但這對于LLM來說卻異常困難 。
機器人的環境目前尚處于起步階段 , 調整起來相對容易 , 但LLM擁有巨大而復雜的行動空間 , 使得防止獎勵黑客變得難上加難 。
因此 , 解決獎勵黑客問題是所有頂尖實驗室的重中之重 , 這需要借鑒許多來自安全與對齊團隊的想法 。
在Claude 4中 , Anthropic通過改進環境、明確獎勵信號和實施主動監控 , 顯著減少了獎勵黑客行為 。 這絕非易事 , 需要大量的專業知識和實踐經驗 。
然而 , 強化學習和獎勵黑客并非唯一的瓶頸 , 基礎設施本身也是一個巨大的瓶頸 。 而這個瓶頸始于強化學習所需的數據 。

數據與樣本效率乍一看 , 強化學習的樣本效率似乎很高 。
在訓練Qwen模型的「推理強化學習」階段 , 研究者僅用了不到4000組問答對 , 就實現了相較于基礎模型的顯著性能提升 , 并因此聲稱其樣本效率極高 。
然而 , 實際情況要復雜得多 。
因為4000組問答對中的每一組 , 都必須滿足極其嚴苛的條件:不能是模型冷啟動階段已經用過的數據;必須盡可能地有挑戰性 , 覆蓋廣泛的細分領域 , 同時又要恰好在模型當前的能力范圍之內 。
要滿足這些要求絕非易事 。
生成合適的合成數據 , 需要經歷大量的篩選和反復的模型推理 。
此外 , 要確保問題「有挑戰性但又不過于困難」 , 這本身就需要通過實驗和驗證 , 以確認問題難度恰好落在那個狹窄的區間內 。
在某些無法通過合成數據生成的場景中 , 實驗室甚至需要招聘STEM領域的博士 , 來專門為模型編寫足夠有挑戰性的問題和答案 。 而他們的另一項工作 , 就是為LLM評判員編寫可供參考的評分標準 。
這也就是為什么 , 像ScaleAI、Mercor和Handshake這樣的招聘和數據服務公司 , 能從各大AI實驗室獲得源源不斷的業務 , 賺得盆滿缽滿 。
此外 , Qwen模型還進行了另一階段的強化學習 , 而他們沒有公布這一階段所用的樣本數量 , 因為這個數字遠不止4000 。
在后續階段 , 他們在超過20個不同領域進行了強化學習 , 并且同時使用了所有三種類型的獎勵模型(基于規則的、有標準答案的 LLM-Judge、以及無標準答案的 LLM-Judge) 。
這背后 , 都需要極為復雜的工程技術和計算資源支持 。
長遠來看 , SemiAnalysis預計 , 各大實驗室將在數百個專業領域上進行強化學習 , 以求大幅提升模型性能 。
在此過程中 , 質量比數量更重要——因為模型會精確地擬合其訓練數據 。
因此 , 盡管最終用于訓練的樣本僅有4000個 , 但篩選出它們的過程卻消耗了巨大的計算資源 。
可以說 , 強化學習在數據層面是「樣本高效」的 , 但在計算層面絕對是「樣本低效」的 。
這也就是為什么 , 與預訓練相比 , 要有效地部署強化學習需要規模大得多的工程團隊 。

數據即護城河總之 , Qwen的案例表明:高質量數據是規模化應用RL的一種至關重要的資源 。
高質量數據能為模型提供足夠清晰的強化學習信號 , 使其能精確地提升完成特定任務的能力 , 而生成這類數據 , 往往需要海量的推理計算 。
更廣義地看 , 普通公司或企業可以整合自身數據 , 并利用 OpenAI 推出的強化微調(RFT)等服務 。
RFT允許企業使用自定義的評分器 , 并根據評分結果或特定數據來更新模型 。 顯然 , 這個功能目前被低估了 , 在未來它將產生深遠的影響 。
事實上 , 任何能夠聚合或收集用戶行為的產品都極具價值 , 因為用戶行為數據最終構成了最重要的數據集 。
由此 , 就能得到一個有趣的推論:擁有用戶數據的AI初創公司 , 未來可以在不依賴龐大計算預算來合成數據的情況下 , 利用強化學習訓練出自己的定制模型 。
如果企業真能搭建起合適的強化學習環境 , 那么顯然 , 一個為企業深度定制模型的時代就真的到來了 。
而相比于基礎模型勢不可擋的發展步伐 , 單純為企業進行微調的路線 , 如今基本已宣告失敗 。

AI智能體持續編碼 , 7個月翻一番模型現在能夠長時間保持連貫性 。
更長的任務需要長時間內穩定運行的環境和基礎設施 , 這對工程的要求更高了 。
下面的圖表顯示 , 獨立編碼任務的持續時間每7個月翻倍 , 預計非編碼任務的翻倍速度會更快 。
OpenAI的深度研究是第一個能連貫工作超過幾分鐘的模型 , 我們預計這個能力的上限會顯著且快速提升 。
這里存在一個矛盾 。
智能體任務經濟價值極高 , 但由于其復雜性和資源密集度 , 對強化學習(RL)提出了很高的挑戰 。
任務持續時間延長意味著每次強化學習迭代也需要更長的時間 , 而這會拖慢整個訓練過程 。
以計算機使用(Computer use)為例 , 很好地說明了長時程任務的許多問題 。
首先 , 作為一種智能體任務 , 它更接近現實世界的問題和行為 , 這帶來了新的挑戰 。
比如 , 在計算機使用中 , 智能體會遇到許多反機器人的網頁腳本、驗證碼 , 以及復雜的Cloudflare保護功能 。
這些問題會時不時就會出現 。 這樣的細節給環境調試增加了之前不存在的復雜性 。
此外 , 計算機使用需要大量的虛擬機(VM)和瀏覽器連接等基礎設施 , 這些基礎設施不僅要長時間穩定運行 , 還要滿足之前提到的環境工程要求 。
計算機使用任務通常會持續數小時 。 這意味著任務的執行時間變長 , 獎勵變得稀疏 。
換句話說 , 智能體可能多走十倍的步驟 , 但只有最后一步才會獲得獎勵 , 這使得強化學習的信號變得更弱 。
不僅如此 , 計算機使用還依靠圖像和視頻來向模型展示正在發生的事情 。
雖然有人嘗試通過傳輸HTML文件或者設置網頁的文本表示來實現計算機使用 , 但在這種情況下 , 模型不能理解圖像的含義 。
如果能讓文本表示正常工作 , 將會大大降低計算機使用的內存需求 。

環境計算也要斥巨資SemiAnalysis認為 , 在環境計算上投入資金而不是僅僅專注于強化學習會有巨大的潛力 。
一個例子是高度真實且難以獲得獎勵的黑客環境 , 它利用數十或數百個CPU協同工作 。
這是一個全新的領域 , 非常適合擴展 。 這種真實性可以因為純凈的信號而帶來令人難以置信的性能提升 。
未來 , 這些環境也會運行在GPU上 , 模擬真實世界的數字孿生 。
值得注意的是 , 這些GPU需要具備圖形渲染能力 , 比如RTX Pro GPU或消費級GPU 。 而專門為AI設計的GPU和ASIC芯片(如H100、B200、TPU、Trainium等)在圖形渲染方面明顯不足 。
因此 , 大量資源正被投入到為強化學習(RL)環境構建的AI世界模型上 , 而非其他提及的常規RL環境 。
這將簡化擴展過程 , 否則面對眾多軟硬件 , 環境復雜度會急劇上升 。
可靠、可擴展、易于實現的環境將會有極大需求 , 預計這會成為初創公司蓬勃發展的領域 , 已經有一些公司開始涉足了 。
目前的瓶頸不在于模型的能力——像Grok 3已經足夠聰明 , 能處理大部分任務——而在于與現實世界互動并獲取上下文語境的能力 。
SemiAnalysis認為這對AI在科學領域的應用尤其令人興奮 。
比如 , 可以構建與實驗室中任何可測量事物相連的環境 。 這種設置能讓AI智能體控制現實世界 , 根據環境的反饋來調整和改變各種因素 。 在某些情況下 , 比如控制爐子的溫度 , 反饋循環可能很快 , 模型可以快速迭代 。
然而 , 在其他高價值的任務中 , 如果實驗耗時很長 , 模型就需要有相應的長時間連貫性 。 加上需要多次試驗 , 這種設置可能在計算和物理上都非常苛刻 。
在生物學、半導體制造和材料科學等領域 , 考慮模型運行和測試的反饋循環(比如試驗和消融研究)非常重要 。 這些生物、制造和工業過程的速度和驗證都有其極限 。
某些領域對強化學習計算的影響需要更長的時間 , 其他領域則由于可以快速反饋而迅速變化 。
物理AI的反饋回路比數字世界慢 , 因此需要真正強大的數字孿生環境 。

一個關于「評估」的類比打個粗略的比方:即便是概念上相對簡單的模型評估 , 實際運行起來也困難重重 。
Docker鏡像會頻繁崩潰;選擇題中一個簡單的格式變動(比如將選項從A改為1) , 就可能讓模型的評估分數產生高達5%的波動 。
在評估基礎設施規模化的初期 , Anthropic就曾公開討論過其背后巨大的工程挑戰 。
GPQA是一個常用的評估基準 , 用于測試模型在物理、化學和生物學領域研究生水平的問題 , 但它似乎存在一個「噪聲上限」——盡管它顯示出模型的性能已停滯不前 , 但由于數據集中存在錯誤標注的答案 , 模型實際上不可能達到100%的準確率 。
隨著智能體任務的周期越來越長 , 問題在很多方面都變得愈發嚴峻 。
模型的行動空間(action space)已大幅增加 , 其行為的連貫時間(coherence time)也在變長 , 而要創建能夠衡量這種長周期能力的評估方法 , 本身就極具挑戰 , 同時也使得評估的成本顯著升高 。
總而言之 , 評估基礎設施的建設 , 雖然概念不新且看似簡單 , 但其過程中的繁瑣細節足以讓人崩潰 。
而搭建并擴展大規模的強化學習基礎設施 , 其難度則要高出幾個數量級 , 面臨的瑣碎問題只多不少 。

超算GPU配置 , RL一并優化了英偉達為GB200和GB300設計的NVL72系統 , 為推理領域帶來了關鍵性的進步 。
其更強的計算能力可以在更低的延遲下實現更高的吞吐量 , 而共享內存則為KV緩存提供了更大的擴展空間 。 這不僅讓推理模型在推理階段能進行更高效的批處理 , 也對強化學習產生了深遠影響 。
對于強化學習而言 , 增加的內存帶來了多方面的能力提升 。
首先 , 它允許針對一個給定的問題進行更多輪次的推演 。
其次 , 它能更好地處理長周期智能體任務(long horizon agentic tasks) 。
再次 , 它能支持更大、推理能力更強的模型來擔任評判員 , 這對于那些結果難以直接驗證的領域尤其有幫助 。
最后 , 強化學習這種新范式高度依賴合成數據的生成和篩選 , 而這又離不開海量的推理計算 , NVL72系統在這方面表現極為出色 。
然而 , 在實踐中 , 算力未被充分利用是一個難題 。
例如在線強化學習中 , 不同采樣副本之間難以做到完美的負載均衡 。
當最后一個推演任務完成時 , 第一個可能早已結束 , 造成時間差和資源閑置 。
此外 , 由于不同的采樣器和訓練器可能采用不同的網絡拓撲結構 , 權重的廣播也可能導致顯著的算力閑置 。
強化學習的各個階段都需要推理 , 但與預訓練時代不同 , 這些推理任務不必集中進行 。
雖然強化學習需要大量計算 , 但這些計算任務不必部署在同一地點 。
例如 , 一個領域的合成數據可以在一個數據中心生成和驗證 , 而模型的訓練過程則可以在另一個完全不同的數據中心進行 。
隨著強化學習在總計算量中的占比越來越大 , 可能會看到數據中心建設格局的轉變 。 盡管最大規模的、數千兆瓦級的超大型數據中心對于預訓練的規模化擴展仍然是必需的 , 但強化學習究竟能在多大程度上實現去中心化 , 目前尚無定論 。
預訓練一次性可能占用數萬塊GPU , 但用于強化學習的推理算力卻可以根據可用容量靈活調配 。
這意味著 , 實驗室現在可以利用非高峰時段的閑置GPU , 來執行其強化學習流程中的合成數據生成等任務 。
事實上 , SemiAnalysis了解到至少有一家實驗室正在利用其閑置的推理集群來運行這一流程 , 通過生成合成數據 , 相當于為模型訓練免費提供計算資源 。
未來 , 推理和訓練之間的界限將在各大實驗室中變得越來越模糊 , 這將使得除大型訓練集群之外的更多計算資源 , 也能夠被用于模型能力的提升 。
這些閑置算力之所以能「免費」地服務于訓練 , 根本原因在于推理集群的建設必須按照峰值需求進行配置 。
Prime Intellect公司的Intellect-2模型就展示了強化學習的這種去中心化特性 , 這是一個全球分布式運行的推理模型 。
從硬件設計的角度看 , 日益增長的推理需求和長周期智能體任務使得內存變得愈發重要 。
強化學習所消耗的浮點運算(FLOPs)次數雖少于預訓練 , 但其內存負載卻依然很高 。
長遠來看 , 硬件發展將進行調整以適應這一變化 , 這其中也包括對網絡拓撲等因素的考量 。
SemiAnalysis看到 , 強化學習帶來的改變已遠不止硬件設計 , 它同樣在重塑研究的組織與協同方式 。

AI實驗室重組 , RL造成的語言模型的強化學習中 , 推理(inference)首次與訓練過程發生了深度的融合 。
現在 , 推理的性能直接影響著訓練的速度 。
這意味著 , 生產級別的推理能力(即快速、高效、低成本的推理)已成為模型訓練過程中不可或缺的一環 。
以往 , 每個實驗室都明確區分「面向產品服務的推理」和「內部推理」(例如 , 用于模型評估) 。
然而 , 正因為強化學習需要進行海量的推理計算 , 將一個高度優化的推理堆棧直接內置于訓練堆棧之中 , 變得至關重要 。
這一趨勢也體現在了公司的組織架構調整上 。
OpenAI 為此合并了其研究團隊與應用研究推理團隊 。 同樣 , Anthropic和谷歌也因此對其產品團隊和內部研究團隊進行了重大的組織架構調整 。

RL讓模型不斷「換血」預訓練時代與當前模式的一個顯著區別在于 , 強化學習可以在模型發布后持續進行 。
這意味著模型可以先發布 , 然后通過持續的強化學習來擴展其能力 , 并在此基礎上進行版本更新 。
這種迭代式的開發方法可以為現有模型不斷增添新功能 。 新版DeepSeek R1的發布正是如此 。
實際上 , 這種發布后的持續優化已是常態——例如 , 當前的GPT-4o就已經歷了多次更新 , 早已不是最初發布的版本了 。
SemiAnalysis預計 , 在這種新范式下 , Anthropic將會對Claude模型進行遠比以往更頻繁的更新 。

不用犧牲編碼 , 數據混合是種解一種常見的「RL訓練」方法是:以一個目標模型為基礎 , 創建多個副本 , 分別在特定領域進行 RL , 最后再合并這些副本的權重 。
盡管這一方法受到多數人質疑 , 但在Cohere的Command-A模型中得到了應用 。
通過這種方式 , 不同團隊可以按各自的節奏并行工作 , 從而加快開發進程并簡化整體流程 。
然而挑戰在于 , 權重合并后可能導致模型在某些領域的能力 , 不同程度的下降 。
比如 , Cohere的模型在合并后 , RAG和通用性保持穩定 , 但編碼能力卻有所減弱 。
這便帶來了一個核心問題:是否值得為了提升RAG性能 , 犧牲編碼能力呢?
為了解決此問題 , 另一種方法是利用批處理(batching)技術 。
它將來自不同環境的數據混合在一起進行訓練 , 因此無需進行模型合并 。
這種多環境批處理方法并非一次只專注于一個環境 , 而是通過構建包含所有領域(如數學、代碼、搜索等)混合樣本的訓練批 , 在多個不同的RL環境中同步訓練單一模型 。
它的優勢顯而易見 , 無需合并模型 , 并保留了模型的編碼等領域的能力 。
不過 , 這一方法對團隊協作和基礎設施的要求也更高 。

RL訓練 , 大廠站在了分岔口與預訓練相比 , RL階段技術路徑更為復雜 。
在預訓練階段 , 行業的技術路徑相對清晰 , 主要是通過提升參數規模和算法效率推動LLM性能提升 。
然而 , RL階段的戰略選擇 , 直接體現了各家公司權衡取舍的優先級 。
比如 , Cohere非常看重RAG , 并為了保住這一優勢而做出相應選擇 。
OpenAI、Anthropic、谷歌的激勵機制與目標各不相同 , 這直接影響了他們的數據組合策略、RL投入的方式 。
這也意味著 , 在scaling模型路徑上 , 整個AI圈百家爭鳴 。
過去 , 預訓練的競賽重點在于如何最快地提升模型規模 , 并通過算法創新來提高計算效率 。
但在RL領域 , 規模化的方式遠不止擴大算力這一種 。 例如 , 可以專注于擴大某一特定領域的數據量 。
舉個例子 , Anthropic明顯將重心完全放在代碼性能上 。
其他實驗室則將資源投向了不同領域——OpenAI在推出其代碼工具Codex之前 , 優先發布了Deep Research 。
隨著這一范式不斷演進 , 各家實驗室的真實側重點將變得愈發清晰 , 而這些差異在預訓練階段往往難以察覺的 。
Thinking Machines的核心主張之所以引人注目 , 正是因為他們的關注點與其他實驗室截然不同 。

小模型 , 更適合蒸餾對于小模型而言 , 強化學習并非是最佳選擇 。
Qwen的實踐表明 , 在開發小模型時 , 蒸餾的效果極其顯著 。
具體來說 , 蒸餾是指通過比較對同一問題的回答 , 讓小模型(學生模型)的概率分布向教師模型的概率分布靠攏 。
蒸餾通常不像RL那樣 , 需要進行「推演」 , 這意味著它的資源利用效率要高得多 。
Qwen發現 , 通過蒸餾 , 他們能用更少的GPU取得更好的效果 。
同樣 , OpenAI近期發布的mini系列模型 , 也采用了這種方法 。
然而 , 這類小模型的一個缺點是性能「參差不齊」 , 或呈現「尖峰效應」 , 即在某些方面表現極其出色 , 而在其他方面則不然 。
相比之下 , 像GPT-4o這樣的大模型則表現得更為全面 。
當然 , 蒸餾的成功離不開一個強大的「教師」模型 , 這一點是必不可少的 。
參考資料:
https://semianalysis.com/2025/06/08/scaling-reinforcement-learning-environments-reward-hacking-agents-scaling-data/
https://x.com/Prashant_1722/status/1932244771436929492

    推薦閱讀