騰訊混元升級AI繪畫微調范式,在整個擴散軌跡上優化

騰訊混元升級AI繪畫微調范式,在整個擴散軌跡上優化

文章圖片

騰訊混元升級AI繪畫微調范式,在整個擴散軌跡上優化

文章圖片

騰訊混元升級AI繪畫微調范式,在整個擴散軌跡上優化

文章圖片

騰訊混元升級AI繪畫微調范式,在整個擴散軌跡上優化

文章圖片


夢晨 發自 凹非寺量子位 | 公眾號 QbitAI
讓AI生成的圖像更符合人類精細偏好 , 在32塊H20上訓練10分鐘就能收斂 。
騰訊混元新方法讓微調的FLUX1.dev模型人工評估的真實感和美學評分提高3倍以上 。

當前的擴散模型雖然能通過獎勵機制來貼合人類喜好 , 但存在兩個問題:一是優化步驟少 , 容易出現 “獎勵作弊” , 也就是模型為了拿高分生成質量差的圖;二是需要離線調整獎勵模型才能達到好的美學效果 , 不夠靈活 。
為此 , 團隊提出兩個關鍵方法:
一個是Direct-Align , 通過預先注入噪聲 , 能從任意時間步恢復原圖 , 避免了只在后期步驟優化的局限 , 減少了 “獎勵作弊” 。
另一個是語義相對偏好優化(SRPO) , 它把獎勵變成受文本控制的信號 , 通過添加正面和負面提示詞 , 能在線調整獎勵 , 不用額外數據就能靈活適配需求 。
論文公開后 , 有開發者評價SRPO看起來就像下一代RLHF 。

在整個擴散軌跡上進行優化研究團隊首先指出了現有方法的兩個核心痛點:第一 , 多步去噪過程中的梯度計算成本極高 , 導致優化只能局限在擴散過程的最后幾步;第二 , 為了達到理想的美學效果 , 往往需要不斷地離線調整獎勵模型 。
為了解決第一個問題 , 團隊提出了Direct-Align方法 。
首先預定義一個噪聲先驗 , 通過插值直接從任意時間步恢復原始圖像 。 團隊發現 , 擴散狀態實際上就是噪聲和目標圖像之間的插值 。

這個方法讓模型能夠從高噪聲狀態直接恢復出清晰圖像 , 避免了傳統方法在早期時間步反向傳播時的梯度爆炸問題 。 實驗表明 , 即使在只有5%去噪進度的極早期階段 , Direct-Align也能恢復出圖像的粗略結構 。

更重要的是 , 這種方法支持在整個擴散軌跡上進行優化 , 而不是像ReFL、DRaFT等方法那樣只能在后期步驟訓練 。
實驗發現 , 僅在后25%時間步訓練會導致嚴重的獎勵黑客問題 , 模型會過度擬合獎勵函數的偏好 , 比如HPSv2偏好紅色調、PickScore偏好紫色圖像等 。
SRPO讓獎勵信號更聰明第二個創新是語義相對偏好優化(SRPO) 。 傳統方法通常需要多個獎勵模型來平衡不同的偏好 , 但團隊發現這只是調整了獎勵的規模 , 并沒有真正對齊優化方向 。
SRPO的核心思想是將獎勵重新定義為文本條件信號 。 具體來說 , 對于同一張圖像 , 模型會使用正面和負面提示詞分別計算獎勵 , 然后取其相對差值作為優化目標 。

在實際應用中 , 團隊只需在原始提示詞前添加控制短語(如”. “)就能實現在線調整 。 實驗顯示 , 通過添加”Realistic photo”等控制詞 , 模型生成圖像的真實感提升了約3.7倍 , 美學質量提升了3.1倍 。
SRPO能夠通過簡單的提示詞控制實現多種風格調整 , 包括亮度調節、漫畫風格轉換等 。 有趣的是 , 控制效果的強弱與控制詞在獎勵模型訓練集中的出現頻率相關——高頻詞如”painting”效果最好 , 而低頻詞如”Cyberpunk”則需要與其他高頻詞組合使用 。
實驗結果研究團隊在FLUX.1-dev模型上進行了全面的實驗驗證 。 與ReFL、DRaFT、DanceGRPO等最新方法相比 , SRPO在多個評估指標上都取得了最佳成績 。
在HPDv2基準測試的3200個提示詞上 , SRPO不僅在自動評估指標(Aesthetic Score v2.5、PickScore、ImageReward等)上領先 , 更重要的是在人工評估中表現出色 。 團隊組織了10名訓練有素的標注員和3名領域專家 , 對500個提示詞生成的圖像進行了全面評估 。
結果顯示 , 在真實感維度上 , 原始FLUX模型的優秀率僅為8.2% , 而經過SRPO訓練后飆升至38.9% 。 在美學質量上 , 優秀率從9.8%提升到40.5% , 總體偏好度更是達到了29.4%的優秀率 。

值得一提的是 , DanceGRPO雖然也能提升美學質量 , 但經常引入不良偽影 , 如過度的光澤感和明顯的邊緣高光 。 相比之下 , SRPO生成的圖像在保持高美學質量的同時 , 紋理細節更加自然真實 。

團隊還進行了一項有趣的對比實驗:他們發現經過短短10分鐘SRPO訓練的FLUX.1-dev , 在HPDv2基準上的表現已經超越了最新的開源版本FLUX.1.Krea 。

論文地址:https://arxiv.org/abs/2509.06942
【騰訊混元升級AI繪畫微調范式,在整個擴散軌跡上優化】參考鏈接:[1
https://x.com/_akhaliq/status/1966911634657390890

    推薦閱讀