拿走200多萬獎金的AI人才，到底給出了什么樣的技術方案？

2026-04-27 網絡安全人工智能 ai 釘釘

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯｜張倩
在國內，懂技術 —— 尤其是 AI 技術的年輕人，真的不缺嶄露頭角的機會。
前段時間， 2025 年騰訊廣告算法大賽結果揭曉，前 10 名隊伍的全部成員都拿到了騰訊的錄用意向書，冠軍還拿到了 200 萬元巨額獎金。

當時，看完選手們的答辯，騰訊公司副總裁蔣杰感慨地說，這屆年輕人的知識儲備令人驚嘆，他們做出來的東西和工業界的實際工作非常接近，沒有代差。
如果說大賽考的是一個已經被工業界解決的問題，選手們查查論文、復現方案，拼拼工程把問題解決掉倒也不是什么新鮮事。但看過今年賽題的人都知道，這次擺在桌面上的，是一個仍在探索中的真實難題，沒有現成答案，也不存在所謂「最優解」。
也正因如此，比賽真正精彩的部分，其實不在排名本身，而在于：這道題究竟難在哪里？工業界已經做了些什么？而這些年輕人，又給出了哪些實用的解法？
在這篇文章中，我們將結合冠亞軍團隊的解決方案，來詳細聊聊這些問題。
廣告推薦
從來不是一件簡單的事
一提到廣告，很多人都會下意識皺眉。這種情緒其實很正常，沒有人喜歡被無關的信息打斷。但換個角度看，今天我們習以為常的很多內容和服務之所以能夠長期、穩定地存在，本身就離不開廣告的支撐。
也正因如此，平臺真正想做的，并不是把更多廣告塞給用戶，而是盡量讓廣告「少出現一點、對一點」。只有把廣告在合適的時間，推給真正可能需要的人，才能減少無效曝光，也減少對其他人的打擾。騰訊廣告算法大賽所討論的，正是如何把這件事做得更克制、更聰明。
在業界，目前主要有兩種方法在 PK 。一種是已經用了很多年的判別式方法，另一種是最近兩三年興起的生成式方法。
要理解兩種方法的差異，我們可以舉個例子：假設你是一個新來的班主任，想要根據小明同學的興趣給他推薦合適的課外書。
在傳統的判別式方法里，你的任務很明確：不是理解小明的成長過程，而是判斷「這本書適不適合他」。學校會給你一張小明的檔案表，以及一張館藏書單。檔案表上記錄的是一系列已經被「統計好」的特征，你需要做的，是把這些特征代入模型，給每一本書算一個匹配分數，然后按分數高低排序。

而按照最近興起的生成式方法，學校換了一種要求。不再讓你給書打分，而是直接把小明過去一整年的借閱「流水賬」交給你，讓你去發現其中的規律，并預測：接下來最可能發生的那一次借書，會是什么樣子。

后一種方法之所以興起，是因為前一種方法在研究多年之后，遇到了很難克服的瓶頸。
從例子里可以看出，傳統判別式方法，更像是把小明壓縮成一張「人設表」，在書和人之間算匹配度，然后用一種級聯的「漏斗」去篩選。這種方式在早期非常有效，但后來，隨著系統不斷加入新的手工特征、更多統計維度、更復雜的級聯模型，效果提升卻越來越有限，尤其是在冷啟動方面。

傳統判別式方法的級聯架構，像漏斗一樣對廣告層層篩選。
原因并不是工程師不努力，而是這種范式本身就存在很大的局限，包括特征挖掘遇上天花板，模型架構無法有效建模世界知識、推理用戶意圖、吸收多領域多模態用戶行為信息，級聯架構把目標拆碎并帶來誤差累積等。這就造成一個局面：算法工程師已經很難通過簡單地增加特征或擴大現有模型規模來獲得預期效果。
而生成式方法換了一種思路。它不急著給小明下結論，而是直接看他一整段時間的借閱記錄，去理解興趣是如何變化的，并順著這個過程，預測「下一步最可能發生什么」。
對應到廣告場景里，這意味著系統不再只判斷「點不點」某個廣告，而是嘗試回答：在此時此刻，這個人最不反感、也最可能有用的廣告，會是什么。
生成式模型本身的一些特質，使得它們擅長回答這類問題，包括處理長時間跨度的行為序列的能力，可以直接利用大模型中已經學到的世界知識和多模態先驗等。
騰訊廣告算法大賽所關注的，正是這一代方法，而且考慮到多模態信息在此類場景中的重要性，他們把賽題確定為「全模態生成式推薦」。

目前，業界已經涌現出了一些優秀工作，有些成功地將傳統級聯架構中的某個組件替換為了生成式模型，比如 Google TIGER、Meta HSTU；還有些探索了端到端的生成式推薦，比如快手的 OneRec、騰訊的單模型框架 GPR 。值得注意的是， HSTU 首次在推薦中觀察到了 Scaling Law ，這說明推薦系統也可以「吃到 scaling 的紅利」。

傳統級聯方法、用生成式模型替代部分組件的方法以及端到端生成式方法（騰訊 GPR）對比圖。圖源：https://arxiv.org/pdf/2511.10138
不過，這一領域依然存在很多挑戰，比如工業級動態詞表帶來的訓練 / 推理雙重爆炸、毫秒級延遲與巨量算力的矛盾、大尺寸模型性能尚未得到充分驗證等。
就是在這樣的探索階段，選手們拿到了這個賽題。對于沒有接觸過廣告業務的他們來說，這個賽題極具挑戰性。

首先從數據規模來看，賽題對應的是超大規模數據場景：涉及千萬級廣告、千萬級用戶，以及同樣規模的交互序列，但可用于訓練的計算資源卻是有限的，這要求模型在效果與效率之間做出權衡。
其次，數據本身的結構也非常復雜。選手拿到的是經過脫敏處理的用戶全模態歷史行為數據，包含文本、圖像以及用戶與廣告之間的協同行為信息，同時還存在特征缺失、行為序列時間跨度大的問題，需要在不完整信息下建模長期與短期行為。
在任務層面，復賽賽題并非單一目標優化，而是同時涉及曝光、點擊與轉化等多個隱式目標，并且存在近半數的冷啟動 item ，這進一步提高了建模難度。
接下來我們就看看，本屆大賽的冠亞軍團隊是怎么解決這些問題的。
冠軍 Echoch：讓推薦系統真正理解
用戶「此時此刻」想要什么
冠軍 Echoch 團隊由來自華中科技大學、北京大學、中國科學技術大學的同學組成。在答辯中，他們從特征工程、模型設計、語義 ID、訓推加速四個角度介紹了自己的方案。

三級會話體系 + 周期編碼 + 時間差分桶：讓模型擁有節奏感
同一個行為，在不同時間和狀態下，含義可能完全不一樣。比如同樣是點一個廣告，早上看到可能是隨便點點，晚上可能更容易下單；5 分鐘前點過一雙鞋可能是剛感興趣， 3 天前點過的鞋可能已經不喜歡了。所以 Echoch 團隊努力去解決的第一個大問題是：如何讓推薦系統擁有「時間感」和「節奏感」，知道用戶「此時此刻」處于什么狀態。
為了解決這個問題，他們提出了三種方法，從不同角度來描述用戶行為的特征，分別是：三級會話體系、周期編碼和時間差分桶。
所謂的三級會話體系如下圖所示，它解決的問題是怎么組織用戶的各種行為：是剛點開，隨手劃兩下；還是已經刷了一會兒，興趣在變化；還是之前刷過，現在又回來刷了。這樣的區分有助于系統判斷「用戶現在想干嘛」，從而決定推薦的時機和節奏。

而周期編碼的作用則是找到時間點的規律，讓模型感知此刻是用戶常刷的高峰期，還是偶爾點開的空檔，從而決定推薦的內容類型。時間差分桶是為了讓模型分清「新鮮度」，即某個商品是「剛剛感興趣」還是「早就看過」，從而決定歷史行為的參考權重。
這幾個維度的信息疊加在一起，可以讓推薦系統既貼著用戶的作息周期，又更好地把握新鮮度和轟炸感，在合適的時間推合適的內容。
點擊和轉化：一個模型，兩套策略
到了復賽階段，大賽的規則其實發生了一些變化：在初賽中，選手們只需要預測「點擊」行為；但到了復賽，他們需要同時預測「點擊」與「轉化」兩種行為。
這就帶來了一個問題：兩種行為的目標與權重差異巨大，但模型只能生成一個統一的用戶畫像，推薦時左右為難。
對此， Echoch 團隊給出的解決方案是讓同一個模型，能根據「想讓用戶點擊」還是「想讓用戶購買」自動切換推薦策略，而不是一套畫像硬撐兩個目標。
除此之外，他們在模型設計層面還發現了一個問題，就是用 HSTU 作為基座模型會遇到顯存瓶頸和性能瓶頸。經過調查，他們發現這個問題的本質是 HSTU 需要靠「外掛補丁」去了解時間和行為信息，這樣不但顯存和計算成本很高，效果也開始停滯。于是，他們把基座模型換成了 LLM ，因為 LLM 天生就有一個叫 RoPE 的位置編碼機制，就像自帶了「時間感」，這樣時間和行為就不再是負擔。結果不僅線上得分提升不少，顯存占用也減少 5G 左右。
引入隨機性，讓冷門廣告也有曝光機會
對于 Echoch 團隊來說，語義 ID 層面的核心問題在于：用傳統的聚類方法給廣告編號，熱門廣告占據了大部分「好位置」，冷門廣告被擠到角落，幾乎沒有被推薦的機會。
對此，他們給出的解法是：在編碼的最后一層，故意引入一些隨機性，讓碼表使用更均勻，從而讓更多廣告能被模型真正看到、參與訓練。這種方法效果顯著：長尾物品訓練關注度提升了 190 倍，碼表利用率從 81.2% 提升至 100% ， Gini 系數（衡量曝光分布的不平等程度的指標）從 0.53 降至接近于 0 。
引入 Muon 優化器，訓練又快又穩定
前面提到， HSTU 首次證明，推薦系統也能吃到 scaling 的紅利。但對于選手來說，訓練更大的模型卻沒有那么容易，因為他們可以調動的計算資源是有限的。模型一大就面臨顯存不夠用、訓練不穩定的問題。
為了不在模型規模上妥協， Echoch 引入了 Muon 優化器。與需要為每個參數額外存儲 2 份歷史信息的 AdamW 相比， Muon 通過 Newton-Schulz 迭代把梯度矩陣變成正交矩陣，省掉了記錄二階動量的顯存開銷，顯存占用實測銳減 45% ，收斂速度提升 40% 。
亞軍 leejt：大數據，大模型
scaling is all you need
亞軍 leejt 團隊成員來自中山大學。在答辯中，他們從數據處理、模型訓練、模型推理與后訓練等幾個角度介紹了自己的方案。

共享詞表 + 哈希編碼：巧妙處理超大規模數據
和 LLM 一樣，全模態生成式廣告推薦的底層邏輯也是 next-token 預測，但兩者面對的 token 世界規模完全不同。語言模型的詞表只有十幾萬，而且是靜態的；而在廣告推薦中，如果把每個廣告都視作一個 token ，詞表規模會迅速膨脹到千萬甚至上億級。即便在比賽這種受控環境下，廣告數量也超過了 1800 萬。如果為每個廣告分配獨立的嵌入向量，顯存很快就會爆掉。
因此， leejt 團隊在數據處理階段做的第一件事，就是壓縮詞表規模。他們發現，接近一半的廣告交互頻次極低，既難以學到穩定表示，又大量消耗顯存，于是將這些低頻廣告映射到共享詞表中；同時再通過 ID 哈希，把原始廣告 ID 壓縮成更緊湊的表示。這兩步基本解決了模型「訓不起來」的問題。
此外，這里還涉及對多模態特征的取舍與壓縮。面對維度極高、噪聲較重的多模態向量， leejt 并沒有選擇直接堆進模型，而是先用 SVD 做降維去噪，再通過 RQ-KMeans 將連續向量離散為語義 ID（SID），把高維連續空間壓縮成可控的離散表示。與此同時，對于缺失率高、線下驗證效果不佳的模態特征，他們選擇直接舍棄，而不是讓模型為低質量信息付出建模成本。
session 劃分 + 異構時序圖：數據臟亂差也不怕
除了數據規模，真正讓團隊感到棘手的，還有數據本身的復雜性。
用戶行為序列看似很長，但仔細分析會發現，很多序列其實是多個 session 拼接而成，如果不顯式建模 session 邊界，模型會把跨天、跨興趣階段的行為當成連續偏好來學，噪聲極大；此外，大量商品是冷啟動或低頻，同時多模態特征維度高、缺失多、噪聲重，如果直接輸入模型，只會放大不確定性。
leejt 給出的解法是：主動補充序列之外的信息結構。一方面，他們通過時間特征和 session 劃分，讓模型知道哪些行為是「剛剛發生的」，哪些只是歷史殘留；另一方面，他們引入了異構時序圖，把用戶、廣告以及語義層面的節點連接在一起。當某個用戶或廣告自身信息不足時，模型可以通過與其相鄰的用戶、相似廣告和語義簇來「借信號」，用群體行為來彌補個體數據的稀疏。這一步的本質，是把原本只能在一條序列上盲猜的問題，轉化成在一個關系網絡中有依據地推斷。
極致的工程優化：把 GPU 利用率拉到 100%
和 Echoch 團隊一樣，在有限的算力上訓出更大更有效的模型也是 leejt 團隊的核心目標。這方面，他們確實做得很成功，把模型從 4 層 512 維擴展到 8 層 2048 維，帶來了百分位級別的性能提升。

團隊的解法是從多個環節擠出效率空間：混合精度訓練、梯度檢查點、torch.compile 圖編譯，以及把所有數據預處理都放進 Dataloader 里讓數據加載和模型計算完全并行。這套方法效果顯著：每步訓練時間從 3.5 秒壓縮到 0.8 秒， GPU 利用率拉滿到 100% ，省下來的時間和空間全部用來把模型做大做深，最終驗證了團隊的核心信念 ——Scaling is all you need 。

騰訊廣告算法大賽
讓技術理想照進現實的起點
從這次比賽來看，全模態生成式廣告推薦確實不是一個簡單的問題。但年輕一代給出了非常有價值的思路。這些方案既有扎實的工程功底，也有對問題本質的深刻理解。
從業界實踐來看，從判別式到生成式的演進正在平穩推進。蔣杰提到，騰訊內部已經嘗試在召回和粗排階段用生成式模型替代傳統的判別式模型，并且取得了不錯的效果，這些收益在財報的營收數據上也有所體現。這說明生成式推薦不只是學術界的熱門話題，而是真正能落地、能創造商業價值的技術方向。
為了適應這種趨勢，騰訊廣告內部也在積極布局。蔣杰提到，未來，他們的數據將全面多模態化，內部廣告系統也將全面 Agent 化。同時，為了支持整個社區的發展，騰訊廣告會將本次大賽的數據開源，讓更多研究者和開發者能夠在真實場景的數據上探索和驗證自己的想法。
而生成式廣告推薦的想象空間，其實遠超這次大賽所考察的范圍。比賽關注的還是「從候選池里挑出最合適的廣告」，但未來可能出現即時生成的廣告 —— 不再是從現有素材中檢索，而是根據用戶當下的興趣、場景、情緒，實時生成個性化的廣告文案、圖片甚至視頻。到那時，「千人千面」才算真正名副其實。
當然，這中間還有很多技術難點需要克服。騰訊廣告算法大賽，正是這樣一個讓技術理想照進現實的起點。
期待明年還能看到如此精彩的賽事。
【拿走200多萬獎金的AI人才，到底給出了什么樣的技術方案？】參考鏈接：https://mp.weixin.qq.com/s/hlUk9P6vJk7fTir-TaVxNg

推薦閱讀

上一篇：百元麥克風，專業級音頻的體驗，我用西圣Mike2顛覆了創作體驗

下一篇：MaaS做到第一后，火山下一步怎么走？