快手解密AI印鈔機,生成式強化學習出價,實現超過3%的廣告收入提升

2026-04-27

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
編輯：Panda、張倩
前段時間，谷歌母公司 Alphabet 市值突破 3 萬億美元，成為第四家市值達到這一門檻的公司。
如果時間倒回到兩年半以前，谷歌自己可能都沒有想到這一結果。當時， ChatGPT 帶來的沖擊讓外界開始質疑谷歌能否守住營收，尤其是廣告營收。甚至還有人發出靈魂追問：谷歌會成為下一個諾基亞嗎？
然而，事實的發展出乎許多人意料 —— 谷歌不僅穩住了廣告基本盤，還通過將生成式 AI 融入搜索和廣告投放，提升了用戶意圖理解和廣告匹配效率，讓廣告價值進一步放大。
在國內，我們也看到了這種趨勢。上個月，快手發布了 Q2 財報。財報顯示，這一季度，快手線上營銷服務收入 198 億元，同比增長 12.8% 。財報明確指出，大模型在投放出價、營銷推薦方面的應用取得顯著進展。在營銷出價方面，快手優化了生成式出價算法，運用強化學習和長期價值策略，提升了廣告轉化效果。在營銷推薦環節，快手利用大語言模型的內容理解和推理能力，采用生成式方法篩選廣告，深入挖掘用戶行為與廣告轉化的關聯性，生成符合用戶興趣的廣告內容，經過排序優化后顯著提高點擊率，推動營銷服務收入實現兩位數增長。這些信號表明， AI 技術正在從根本上驅動廣告行業的收入增長。
不過，從技術上來看，這不是一蹴而就的，相關技術在過去的幾年里經歷了多次迭代。以實時競價（RTB）廣告系統中的「大規模廣告自動出價」問題為例，相關技術經歷了經典控制、規劃求解、強化學習、生成模型等數代演化，如今又迎來了「生成式強化學習」這一全新范式。
這一新范式由快手首次提出。其核心思想是「讓出價模型能多維思考」，更充分地利用歷史出價序列信息，從而做出更精準的決策。 2025 年至今，這一范式已在快手廣告系統全面落地，在保持廣告主既定成本目標不劣化（成本達標不降）的前提下，為平臺實現了超過 3% 的廣告收入提升。
那么，這一效果是怎么實現的？在快手發布的幾篇論文中，我們可以找到答案。
【快手解密AI印鈔機,生成式強化學習出價,實現超過3%的廣告收入提升】廣告自動出價
在不確定中尋找最優解
在深入探討快手的技術革新之前，我們有必要先對「廣告自動出價」有一個基本的理解，尤其是其核心邏輯與挑戰。
簡單來說，廣告自動出價，也被稱為智能出價，是使用算法，根據用戶廣告產生點擊或轉化的可能性自動為這些廣告設置出價。過程中無需手動更新，它會為用戶完成所有繁重的工作，以相當于或優于現有效果目標的成本效益，推動實現更高的轉化量或轉化價值。
總結起來，相比于手動或人工出價，自動出價有三大優勢：
真正的實時出價查詢一級的自適應學習豐富的用戶信號和跨信號分析
實時出價系統示意圖
然而，要實現理想的自動出價卻非易事，而這就涉及到了廣告出價的核心挑戰：
既要花錢，又要省著花：廣告主既需控制單日花費不超預算，又需盡可能降低每次轉化（如購買、下載等）的成本。未來難以預測：系統無法預知即將到來的流量狀況和競爭對手行為，必須依據實時花費與成本等數據動態調整出價。牽一發而動全身：每次出價會影響廣告展示與消耗，改變賬戶狀態（如剩余預算），進而影響后續出價，構成連續而復雜的序列決策問題。針對這些挑戰，業界提出了許多不同的解決方案并一直在不斷迭代，比如互聯網廣告行業龍頭谷歌廣告（Google Ads）使用了一種基于機器學習的自動出價系統，它可借助歷史轉化數據訓練點擊率（CTR）、轉化率（CVR）等預測模型，結合拍賣時上下文信號（設備、地理位置、時段、瀏覽環境等），在每次競價中實時調整出價（使用了強化學習思想），以最大化廣告主的 ROI（如轉化次數、收入、ROAS）的目標。
而快手的出價算法此前也已經經歷了多輪迭代，整體可以總結為從 PID、MPC 到強化學習（RL）的「三代」演化路徑。若將這一過程比喻為汽車工業的發展：
第一代（PID）：包含了三個關鍵的控制參數：比例（Proportional）、積分（Integral）和微分（Derivative）。該算法可以通過動態調整出價來很好地將廣告平均成交價穩定在目標成交價，但不足的點在于對未來消耗和預期消耗沒有預估和規劃。這就像是定速巡航。它只能根據當前速度和設定速度的差異來調整油門，反應直接但比較「笨」，難以應對復雜多變的競價環境。第二代（MPC/Model Predictive Control）：引入了對未來的預測，在對出價與未來消耗、成本的關系進行建模的基礎上能夠做出更精準的出價規劃。不過，該算法建模能力較弱，也無法做出多步長期決策。這就像是更高級的自適應巡航。通過預測未來短時間內的路況以調整車速，但其建模相對簡單，易陷入局部最優，本質上難以實現效果的根本性突破。第三代（強化學習）：如同根據專家駕駛數據學習的 AI 駕駛員。通過分析海量歷史駕駛數據（離線數據集），學習在特定狀態下的最佳動作（出價），以最大化全程獎勵（廣告效果）。該方法安全性高（不直接影響線上業務），且能夠挖掘數據中蘊藏的更優策略 ?，F如今，快手的出價算法已經進化到了第四代：生成式強化學習。
顧名思義，生成式強化學習是一種將當今大熱的生成式模型與強化學習技術融合起來的新方法。它彌補了之前的強化學習的一些突出短板。
簡單來說，之前的強化學習技術有點像「一維思考」，只根據單步狀態信息進行決策，對于出價狀態序列信息利用不夠充分。而生成模型（如 Transformer、Diffusion）特別擅長理解和生成有復雜模式的序列數據。反過來，生成模型本質是模仿數據集的動作，高度依賴數據集質量，難以優化序列整體價值；而強化學習能夠學到超出數據集效果的策略，直接優化序列整體價值，在原理上相比生成模型具有更高的收益空間。
這兩大范式互相增益，便造就了「生成式強化學習」，其能讓出價模型實現「多維思考」，從而更充分地利用歷史出價序列信息，從而做出更精準的決策。
雙劍合璧
詳解 GAVE 和 CBD 算法
將生成式模型的能力引入強化學習，無疑為廣告出價帶來了強大的新動能。但在實踐中，直接應用生成模型建模出價策略，也會面臨其固有的挑戰。
此前，業界已經探索了兩種使用生成模型的路徑：
Generative Model as a world model：建立一個可以模擬不同出價策略下廣告投放結果的「數字沙盒」，生成大量訓練數據來增強模型學習。 Generative Models as policies：用生成模型直接建模強化出價策略，提升對于出價狀態序列信息的利用能力。具體到技術框架上，業界采用的主流方法有兩類：
Decision Transformer (DT)：其機制類似于大語言模型中的「下一 token 預測」。模型會依據歷史狀態、調價動作與獎勵序列，預測能夠最大化序列整體價值的最佳出價動作。擴散模型（Diffusion Model）：這一過程則猶如一位「AI 畫家」。模型基于已有狀態從噪聲中勾勒出理想的未來軌跡（如預期消耗、成本曲線），再逆向推導出當前應當執行的出價。
Decision Transformer 架構
然而，無論采用哪種路徑，都必須面對兩大核心挑戰：
依賴高質量數據集：生成模型的效果高度依賴于訓練數據的質量。在離線訓練時，如果探索超出現有數據范圍，很容易遇到 OOD (Out of Distribution) 問題，導致模型效果崩塌。和優化目標難以對齊：生成模型在原理上是模仿學習，難以直接最大化序列的整體收益，因此存在和最終優化目標難以對齊的問題。針對這兩大業界難題，快手商業化算法團隊提出了 GAVE 和 CBD 兩大創新算法，如同「雙劍合璧」，分別予以破解。
GAVE 算法，為探索配備價值羅盤，超越數據局限
GAVE ，全稱 Generative Auto-bidding framework with Value-Guided Explorations ，即由價值引導探索實現的生成式自動出價框架，誕生于快手商業化算法團隊今年 4 月發表的同名論文。

論文標題：Generative Auto-Bidding with Value-Guided Explorations 論文地址：https://arxiv.org/abs/2504.14587該算法解決了將 Decision Transformer (DT) 架構應用與廣告自動出價的兩大挑戰：
出價存在轉化、成本多個目標，如何能讓 DT 架構更好地適配廣告多個投放目標； DT 的學習原理是模仿數據集的出價動作，其效果受限于數據集質量。具體來說，快手商業化算法團隊分別針對這兩大挑戰構建了一個解決方案：Score-based RTG（Return to Go）模塊和基于價值函數的動作探索機制。而 GAVE 便是這兩大解決方案的創新性融合。

GAVE 算法架構圖
其中， Score-based RTG 可把當前時刻到序列結尾的成本率約束加到每個時刻 t ，使得 RTG 對齊最終評估指標（帶懲罰的總轉化）。通過靈活調整得分函數參數，框架可適配 CPA、ROI 等不同廣告場景需求，以實現目標導向的出價生成決策。
而基于價值函數的動作探索機制包含兩個模塊：動作探索和可學習價值函數。
動作探索（Action Explorations）模塊：首先生成探索動作，然后預估原動作和探索動作的長期價值，最后讓模型的預測動作更多地向原始動作和探索動作中價值最大的那個動作進行更新。可學習價值函數（Learnable Value Function）模塊：首先借鑒 IQL 算法的期望回歸損失，預估當前序列下未來回報（RTG）的上界，形成探索動作的價值參考錨點；然后使擾動動作的 RTG 向預測的最優價值更新，這有效地避免無效或者危險的探索。那么， GAVE 算法的表現如何呢？快手商業化算法團隊通過離線和在線實驗進行了驗證。
在 AuctionNet 基準上， GAVE 在不同預算設置與數據條件下均取得最優效果，相對于 DT 更是顯著提升。

GAVE 與其它基線方法的 AuctionNet 性能對比
不僅如此，該團隊還將 GAVE 算法部署到了其大型廣告系統中，進行了線上 A/B 測試。結果表明，在 Nobid（預算約束下最大化轉化）和 Costcap（CPA 約束下優化轉化）兩種場景中， GAVE 均顯著優于基線。 GAVE 在真實廣告競價環境中的有效性與實用性得到了驗證。

在線 A/B 測試結果
據了解，該論文已被頂會 SIGIR 接收。
CBD 算法，以補全+對齊破解目標難以對齊的挑戰
CBD 算法則是快手商業化算法團隊在本月初公布的新方法，全名 Causal auto-Bidding method based on Diffusion completer-aligner ，即基于擴散式補全器-對齊器的因果自動出價方法。

論文標題：Generative Auto-Bidding in Large-Scale Competitive Auctions via Diffusion Completer-Aligner 論文地址：https://arxiv.org/abs/2509.03348CBD 的提出是為了解決基于 DT 的出價技術和直接應用擴散模型（Diffuser）的出價技術的不足。比如基于 DT 的出價技術可能導致誤差的累積，缺乏長程規劃能力，且可解釋性較差，而直接將 Diffuser 應用于廣告出價則可能遭遇生成狀態序列合法性問題與難以和偏好對齊的問題。

生成狀態序列一致性問題和偏好不對齊問題，圖中 (a) 和 (d)
為促使基于擴散模型的生成式強化學習出價模型與優化目標更好對齊，快手商業化算法團隊為 CBD 算法創新性地引入了 Completer 和 Aligner 兩個模塊。

CBD 算法架構示意圖
Completer 的作用是基于歷史觀測序列擴散補全未來序列。就像手機輸入法的聯想功能，根據你已經打出的字，預測你接下來想說什么。 Completer 也是這樣，它根據廣告已經發生的情況（歷史數據），來預測接下來可能發生什么，確保整個計劃是連貫、合理的，不會出錯。 Aligner 則是對生成序列進行偏好對齊，從而實現離在線環境下的性能提升與穩定部署。在 Completer 預測出一個合理的計劃后， Aligner 會介入。它會根據廣告主真正的目標（比如「花最少的錢拿最多的訂單」），對這個計劃進行微調和優化，確保最終執行的是最佳方案 ?？焓稚虡I化算法團隊也已經通過實驗證明了新方案的有效性。前面關于「生成狀態序列一致性問題和偏好不對齊問題」的圖片中就給出了非常清晰的展示。可以看到， Completer 和 Aligner 的表現顯著優于通過條件式擴散建模實現的生成式自動出價方法 DiffBid ，并極大地緩解了生成狀態序列一致性問題和偏好不對齊問題。
在基于 AuctionNet 的離線實驗中，如下表所示，基于所競得的總轉化價值（Value）指標， CBD 的表現明顯優于基線算法性能（包括離線強化學習和 DT 等生成模型方法）。

離線實驗中，不同方法競得的總轉化 Value
該團隊同樣也在快手的大型廣告系統中對 CBD 進行了在線 A/B 測試，結果也同樣非常亮眼。在保持相近預算（成本）的情況下，廣告主實現的平均轉化率（目標成本）提升 2% 。
盡管該方法相比 DT 方法增加了 6ms 的額外延遲，但因為出價模型調用頻率是 20 秒一次，而每次可接受的最大返回時間是 26ms ，因而 6ms 的延遲增加對于出價場景是完全可以接受的。該團隊在論文中寫道：「考慮到所取得的巨大商業價值，額外的推理延遲是值得且正當。」
快手商業化算法團隊
從賽場冠軍到實際業務增長
這些行業領先的技術成果，均出自快手商業化算法團隊之手。作為快手的核心算法部門，該團隊負責快手國內及海外多場景的廣告變現算法研發，致力于通過前沿算法驅動商業營銷增長，并持續優化用戶體驗與客戶效果。
該團隊在業界早已聲名鵲起。在 2024 年的機器學習頂會 NeurIPS 上，快手團隊從超過 1500 支國內外隊伍中脫穎而出，一舉包攬了「大規模拍賣中的自動出價」競賽通用賽道和 AIGB 賽道的雙料冠軍，成為賽事最大贏家。

快手包攬 NeurIPS 2024 Auto-Bidding in Large-Scale Auctions 比賽兩個賽道第一名
除此之外，團隊依托快手實際業務問題，在智能出價和廣告推薦均有大量研究成果產出，發表在KDD、ICLR、ICML、NeurIPS 等國際頂會上，并先后斬獲 CIKM Best Paper、SIGIR Best Paper 提名獎、錢偉長中文信息處理科學技術獎一等獎等榮譽。
從賽場冠軍到業務增長，這些學術與競賽上的硬實力，最終都轉化為了驅動業務增長的強勁動力。如今，以 GAVE 和 CBD 為代表的生成式強化學習出價技術已在快手廣告系統中得到應用，在保持廣告主既定成本目標不劣化的前提下，為平臺實現了超過 3% 的廣告收入提升。
廣告自動出價的未來
不止于此
從 PID 控制到 MPC 規劃，再到強化學習，快手在廣告出價領域的探索最終通過 GAVE 和 CBD 算法，邁入了「生成式強化學習」的全新階段。這不僅是技術的又一次迭代，更是決策理念的根本性躍遷 —— 從單步狀態決策，轉向基于歷史序列決策。已實現的廣告收入提升，僅僅是這場變革的開端。
展望未來，快手在生成式強化學習出價技術上的探索并未止步。基于當前的成功實踐，快手認為該技術仍存在兩大重要的演進方向：
出價基座大模型：依托多場景、多目標的出價歷史序列數據，基于 DT 或 Diffusion 架構訓練通用基礎出價模型，充分發揮數據與算力的規模效應；出價推理大模型：引入大語言模型的復雜推理機制，增強出價模型的可解釋性與決策思維能力，推動自動出價向更高智能層次邁進 ?？傮w來看，從賽場冠軍到業務增長，快手正通過對 AI 核心技術的持續探索和應用，不斷鞏固其在內容社區和數字廣告領域的領先地位。從出價基座大模型到推理能力的進化，快手不僅為自身的商業增長描繪了清晰的藍圖，也為整個行業的提供了極富想象力的發展和探索方向。

推薦閱讀

上一篇：今年的旗艦機又是強的一批！天璣9500發布，電腦級CPU、游戲主機級GPU

下一篇：LightVLA可微分token剪枝，首次實現VLA模型性能和效率的雙重突破