日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

DeepSeek R2或?qū)⒌絹?!清華合作論文揭示獎勵模型推理時擴展新技術(shù)

DeepSeek R2或?qū)⒌絹?!清華合作論文揭示獎勵模型推理時擴展新技術(shù)

文章圖片

DeepSeek R2或?qū)⒌絹?!清華合作論文揭示獎勵模型推理時擴展新技術(shù)

文章圖片

DeepSeek R2或?qū)⒌絹?!清華合作論文揭示獎勵模型推理時擴展新技術(shù)

文章圖片

DeepSeek R2或?qū)⒌絹?!清華合作論文揭示獎勵模型推理時擴展新技術(shù)

文章圖片



大型語言模型(LLM)的進步令人矚目 , 但如何進一步提升它們的推理能力仍然是一個關(guān)鍵挑戰(zhàn) 。
強化學(xué)習(xí)(RL)已成為LLM后訓(xùn)練階段的重要方法 , 獲取準(zhǔn)確的獎勵信號卻是一個難題 。
DeepSeek與清華大學(xué)的研究者合作發(fā)表了一篇論文 , 探索通過增加推理計算資源來提升獎勵建模能力的新途徑 , 為LLM推理能力的提升帶來了新的曙光 。
【DeepSeek R2或?qū)⒌絹恚∏迦A合作論文揭示獎勵模型推理時擴展新技術(shù)】強化學(xué)習(xí)在提升LLM推理能力方面展現(xiàn)了巨大潛力 , 但如何獲得準(zhǔn)確的獎勵信號 , 尤其是在多樣化的領(lǐng)域中 , 仍然是一個挑戰(zhàn) 。
這篇論文的核心在于探究獎勵模型(RM)在推理階段的可擴展性 , 即能否通過增加推理計算資源來提升RM的性能 。

研究者發(fā)現(xiàn) , 點式生成式獎勵建模(GRM)具備推理階段可擴展的潛力 , 并提出了一種名為自我原則點評調(diào)優(yōu)(SPCT)的學(xué)習(xí)方法 。
SPCT方法的核心在于訓(xùn)練GRM生成具備可擴展獎勵能力的行為 。
它包括兩個階段:拒絕式微調(diào)和基于規(guī)則的在線強化學(xué)習(xí) 。
拒絕式微調(diào)階段旨在使GRM適應(yīng)不同的輸入類型 , 并生成正確格式的原則和點評內(nèi)容 。
研究者巧妙地采用了點式GRM , 使其能夠靈活處理不同數(shù)量的回答 。

為了提高預(yù)測獎勵的準(zhǔn)確性 , 他們引入了提示式采樣技術(shù) 。
在SPCT的第二階段 , 基于規(guī)則的在線強化學(xué)習(xí)被用于進一步微調(diào)GRM 。
通過在線優(yōu)化生成的原則和點評內(nèi)容 , GRM能夠更準(zhǔn)確地區(qū)分最優(yōu)回答 , 從而提升推理階段的可擴展性 。
這種方法的優(yōu)勢在于能夠無縫對接任何偏好數(shù)據(jù)集和標(biāo)注的LLM回答 , 具有很強的通用性 。
這項研究的一個重要創(chuàng)新點在于將“原則”從理解過程解耦 , 轉(zhuǎn)變?yōu)楠剟钌傻囊徊糠?。

這意味著原則不再是預(yù)先定義的 , 而是根據(jù)輸入問題和回答動態(tài)生成的 。
這種轉(zhuǎn)變使得獎勵生成過程更具適應(yīng)性 , 也為推理階段的可擴展性提供了關(guān)鍵支撐 。
通過對GRM進行后訓(xùn)練 , 生成的原則和點評內(nèi)容的質(zhì)量和細(xì)致程度都能得到進一步提升 。
為了進一步提升DeepSeek-GRM的性能 , 研究團隊探索了推理時擴展策略 。
他們提出了通過生成獎勵進行投票的方法 , 通過多次采樣并整合獎勵結(jié)果 , 提升最終獎勵的質(zhì)量和細(xì)膩度 。

為了避免采樣過程中出現(xiàn)偏差 , 研究人員還引入了元獎勵模型(meta RM)來引導(dǎo)投票過程 , 過濾掉低質(zhì)量的樣本 。
DeepSeek和清華的研究者基于Gemma-2-27B , 經(jīng)過SPCT訓(xùn)練 , 提出了DeepSeek-GRM-27B模型 。
實驗結(jié)果表明 , DeepSeek-GRM-27B在多個綜合RM基準(zhǔn)測試中表現(xiàn)出色 , 超過了現(xiàn)有方法和模型 。
尤其是在推理時擴展方面 , DeepSeek-GRM-27B展現(xiàn)出顯著的優(yōu)勢 。
研究者還將DeepSeek-GRM-27B與更大規(guī)模的模型進行了比較 , 發(fā)現(xiàn)推理時擴展策略比單純擴大模型規(guī)模更有效 。

消融研究進一步驗證了SPCT方法中各個組件的有效性 。
研究結(jié)果表明 , 即使沒有使用拒絕采樣的評論數(shù)據(jù)進行冷啟動 , 經(jīng)過在線強化學(xué)習(xí)后 , GRM的性能也能得到顯著提升 。
此外 , 原則生成對DeepSeek-GRM-27B的性能至關(guān)重要 。
DeepSeek和清華的這項研究為提升LLM推理能力提供了一種新的思路 。
通過增加推理計算資源 , 并采用SPCT等創(chuàng)新方法 , 可以有效提升獎勵模型的性能 。

這為未來LLM的發(fā)展和應(yīng)用開辟了新的可能性 。
這項研究也引發(fā)了一些值得思考的問題:推理時擴展策略的普適性如何?
在其他類型的LLM上是否也能取得類似的效果?
如何進一步優(yōu)化SPCT方法以提升其效率和性能?
這些問題都有待進一步研究和探索 。

    推薦閱讀