騰訊混元升級AI繪畫微調范式，在整個擴散軌跡上優化_網絡安全

文章圖片

文章圖片

文章圖片

文章圖片

夢晨發自凹非寺量子位 | 公眾號 QbitAI
讓AI生成的圖像更符合人類精細偏好，在32塊H20上訓練10分鐘就能收斂。
騰訊混元新方法讓微調的FLUX1.dev模型人工評估的真實感和美學評分提高3倍以上。

當前的擴散模型雖然能通過獎勵機制來貼合人類喜好，但存在兩個問題：一是優化步驟少，容易出現 “獎勵作弊” ，也就是模型為了拿高分生成質量差的圖；二是需要離線調整獎勵模型才能達到好的美學效果，不夠靈活。
為此，團隊提出兩個關鍵方法：
一個是Direct-Align ，通過預先注入噪聲，能從任意時間步恢復原圖，避免了只在后期步驟優化的局限，減少了 “獎勵作弊” 。
另一個是語義相對偏好優化（SRPO），它把獎勵變成受文本控制的信號，通過添加正面和負面提示詞，能在線調整獎勵，不用額外數據就能靈活適配需求。
論文公開后，有開發者評價SRPO看起來就像下一代RLHF 。

在整個擴散軌跡上進行優化研究團隊首先指出了現有方法的兩個核心痛點：第一，多步去噪過程中的梯度計算成本極高，導致優化只能局限在擴散過程的最后幾步；第二，為了達到理想的美學效果，往往需要不斷地離線調整獎勵模型。
為了解決第一個問題，團隊提出了Direct-Align方法。
首先預定義一個噪聲先驗，通過插值直接從任意時間步恢復原始圖像。團隊發現，擴散狀態實際上就是噪聲和目標圖像之間的插值。

這個方法讓模型能夠從高噪聲狀態直接恢復出清晰圖像，避免了傳統方法在早期時間步反向傳播時的梯度爆炸問題。實驗表明，即使在只有5%去噪進度的極早期階段， Direct-Align也能恢復出圖像的粗略結構。

更重要的是，這種方法支持在整個擴散軌跡上進行優化，而不是像ReFL、DRaFT等方法那樣只能在后期步驟訓練。
實驗發現，僅在后25%時間步訓練會導致嚴重的獎勵黑客問題，模型會過度擬合獎勵函數的偏好，比如HPSv2偏好紅色調、PickScore偏好紫色圖像等。
SRPO讓獎勵信號更聰明第二個創新是語義相對偏好優化（SRPO）。傳統方法通常需要多個獎勵模型來平衡不同的偏好，但團隊發現這只是調整了獎勵的規模，并沒有真正對齊優化方向。
SRPO的核心思想是將獎勵重新定義為文本條件信號。具體來說，對于同一張圖像，模型會使用正面和負面提示詞分別計算獎勵，然后取其相對差值作為優化目標。

在實際應用中，團隊只需在原始提示詞前添加控制短語（如”. “）就能實現在線調整。實驗顯示，通過添加”Realistic photo”等控制詞，模型生成圖像的真實感提升了約3.7倍，美學質量提升了3.1倍。
SRPO能夠通過簡單的提示詞控制實現多種風格調整，包括亮度調節、漫畫風格轉換等。有趣的是，控制效果的強弱與控制詞在獎勵模型訓練集中的出現頻率相關——高頻詞如”painting”效果最好，而低頻詞如”Cyberpunk”則需要與其他高頻詞組合使用。
實驗結果研究團隊在FLUX.1-dev模型上進行了全面的實驗驗證。與ReFL、DRaFT、DanceGRPO等最新方法相比， SRPO在多個評估指標上都取得了最佳成績。
在HPDv2基準測試的3200個提示詞上， SRPO不僅在自動評估指標（Aesthetic Score v2.5、PickScore、ImageReward等）上領先，更重要的是在人工評估中表現出色。團隊組織了10名訓練有素的標注員和3名領域專家，對500個提示詞生成的圖像進行了全面評估。
結果顯示，在真實感維度上，原始FLUX模型的優秀率僅為8.2% ，而經過SRPO訓練后飆升至38.9% 。在美學質量上，優秀率從9.8%提升到40.5% ，總體偏好度更是達到了29.4%的優秀率。

值得一提的是， DanceGRPO雖然也能提升美學質量，但經常引入不良偽影，如過度的光澤感和明顯的邊緣高光。相比之下， SRPO生成的圖像在保持高美學質量的同時，紋理細節更加自然真實。

團隊還進行了一項有趣的對比實驗：他們發現經過短短10分鐘SRPO訓練的FLUX.1-dev ，在HPDv2基準上的表現已經超越了最新的開源版本FLUX.1.Krea 。

論文地址：https://arxiv.org/abs/2509.06942
【騰訊混元升級AI繪畫微調范式，在整個擴散軌跡上優化】參考鏈接：[1
https://x.com/_akhaliq/status/1966911634657390890

騰訊混元升級AI繪畫微調范式，在整個擴散軌跡上優化

推薦閱讀

平凡的世界內容簡介平凡的世界的介紹

電冰箱冷藏室結冰怎樣解決

新鮮牛角怎么處理不裂處理新鮮牛角的詳細步驟

頭足倒置造句頭足倒置的造句

電腦插上耳機沒聲音電腦插上耳機沒聲音怎么設置

方臉帶什么耳環

勤快是什么意思詞語勤快是什么意思

手機花唄怎么開通，怎么付款

移動硬盤格式化成什么格式較好

病人輸液管屬于什么垃圾

為什么純凈水不宜冷凍

太陽花是不是向日葵

輔酶q10不能和什么一起吃

蛋糕巧克力裝飾圖片蛋糕巧克力怎么裝飾

白醋去水龍頭水垢

李雙江夢鴿罕露面李雙江夢鴿