真正的AI競爭力,藏在大模型“后訓練”這一步

真正的AI競爭力,藏在大模型“后訓練”這一步

文章圖片

真正的AI競爭力,藏在大模型“后訓練”這一步

文章圖片

真正的AI競爭力,藏在大模型“后訓練”這一步

文章圖片

真正的AI競爭力,藏在大模型“后訓練”這一步

三石 發自 凹非寺
量子位 | 公眾號 QbitAI
當全球的目光還在聚焦基座模型的參數競賽時 , 一場更為深刻的變革正在悄然發生——后訓練(Post-Training) 。
產業早已達成的共識是:大模型后訓練不再是簡單的模型優化 , 而是AI落地產業的必經之路 。 這意味著 , 企業需要將通用的基座模型 , 訓練成深度理解自身業務、具備領域知識、并能執行復雜策略的“專屬智能引擎” 。
而后訓練技術本身也正在經歷著日新月異的技術變遷 。
Pokee.ai創始人、Meta前應用強化學習部門負責人朱哲清在2025云棲大會《大模型后訓練:打造企業專屬智能引擎》論壇上清晰地勾勒了這條演進路徑——最初 , 行業普遍采用SFT(Supervised Fine-Tuning , 監督微調)的方式 , 讓模型學習特定領域的知識和對話風格 。
然而 , 簡單的監督學習卻無法教會模型進行復雜的價值判斷和策略選擇——這恰恰是企業真實業務場景中的核心需求 。
于是 , 技術的焦點從“模仿”轉向“對齊” , 從監督微調(SFT)進化至以目標為導向的強化學習(RL)范式 。
而在強化學習的實踐路徑上 , 產業界又經歷了一場從“依賴人力”到“追求自動化”的深刻迭代:從早期的RLHF(基于人類反饋的強化學習) , 到突破性的RLVR(基于可驗證反饋的強化學習) , 再到前沿的“自然語言獎勵” 。
從后訓練技術演進路徑中 , 我們也能清晰看到企業“之所以要做后訓練”的答案:通過對模型的特定能力增強 , 解決商業世界的復雜任務 , 構建通用模型無法達到的競爭壁壘 。
△圖:Pokee.ai創始人、Meta前應用強化學習部門負責人朱哲清分享后訓練技術 。

企業大模型后訓練的四步落地路徑在企業實際應用中 , 后訓練之路往往伴隨著數據質量差、標注成本高、獎勵信號與評估體系難定義等一系列挑戰 。
如何高效、成本可控地為后訓練準備高質量數據?如何將模糊的商業目標轉化為模型訓練信號?如何讓模型做出符合業務邏輯的判斷?又該如何量化后訓練技術帶來的實際業務回報?
云棲大會《大模型后訓練:打造企業專屬智能引擎》論壇上 , 來自網易、汽車之家、微博、夸克、知乎、盈米基金、百融云創等企業的多位實踐者 , 已率先跑通了從技術實踐到商業價值的閉環:
知乎用“大模型預打標+主動學習”提升數據質量;汽車之家利用結構化私域數據做增量預訓練 , 并結合KAG(基于領域知識圖譜的內容生成)抑制幻覺 , 確保回答精準;百融云創構建工業化數據生產線 , 提純話術并優化訓練數據 , 使回答質量提升10% , 違規率從1%降至千分之三;微博與網易伏羲通過模型蒸餾 , 在降低成本的同時實現高效內容理解;盈米基金設計融合專家邏輯的獎勵函數 , 其4B模型準確性指標甚至超過通用32B模型 , 實現高商業回報;夸克則通過后訓練復刻專家思維 , 2025年為高考志愿填報場景生成超1200萬份報告 , 服務4000萬用戶 , 實現專家級服務的規模化普惠 。
這些優秀實踐背后 , 浮現出一條企業應用大模型后訓練從技術實踐到商業價值的完整鏈路:一是準備高質量的數據(Data) , 二是選擇合適的基座模型(Model)降低工程門檻 , 三是設計有效的獎勵機制(Reward) , 四是構建可量化的模型評測(Evaluation) , 掛鉤業務指標 。
第一步:準備高質量數據 , 奠定后訓練基石
企業落地大模型后訓練的第一步 , 就是為模型注入領域知識 。
“數據是后訓練的基石 , 數據質量決定了后訓練效果的上限 。 企業做大模型后訓練 , 超過一半甚至60%-70%的時間都花費在數據準備上 。 ”知乎AI團隊負責人王界武在云棲大會《大模型后訓練:打造企業專屬智能引擎》論壇上的觀點引發了全場共鳴 。
數據準備的核心挑戰在于 , 原始數據質量參差不齊 , 包含大量噪聲、冗余和低價值信息 , 企業的自有數據專業且垂直 , 直接用于訓練會導致模型“學壞”或效果不佳 。
根據王界武介紹 , 知乎的后訓練大模型已深入應用于AI搜索、內容安全、內容理解等多個核心場景 。 知乎社區本身積累的優質語料成為最寶貴的數據資產 , 此外知乎還整合了開源數據 。
“數據階段最大的挑戰在于高質量數據 。 現在很多場景必須要采用人工標注 , 但成本非常高;偏主觀的場景下 , 人工標注的結果一致性也沒那么好” , 王界武介紹道 , 知乎走出的一條行之有效的方法是:通過大模型進行預打標 , 采用主動學習(Active Learning)聚焦困難樣本 , 提升數據效率 , 持續構建多源、高質量的訓練數據集 , 支撐不同業務場景下的后訓練需求 。
“實踐證明 , 花精力生成100條高質量的數據 , 可能比多調一次模型帶來的效果提升更大 。 ”王界武說 。
數據難題同樣擺在汽車之家面前 。 對于消費者而言 , 買車是典型的重決策場景 , 因為用戶需要絕對精準的參數、價格、政策信息 。 通用大模型一旦出現幻覺 , 給錯了配置或價格 , 對用戶和平臺來說都可能是致命的 。
汽車之家倉頡大模型團隊負責人馬寶昌介紹道 , 汽車之家利用其20年來積累的結構化私域數據(車型、參數、評測等) , 對通義千問基座模型進行增量預訓練(CPT) , 相當于讓模型先“通讀”一遍汽車領域的專業書籍 , 在進入更精細的SFT和RL訓練之前 , 就打下堅實的知識基礎 。
汽車之家還利用阿里云Data-Juicer框架構建數據處理pipeline , 混合通用數據和汽車領域數據 , 確保模型在提升領域效果的同時保持通用能力 , 為后續的精準問答和推理奠定基礎 。
針對企業數據工程化處理的痛點 , 阿里云智能集團計算平臺事業部解決方案負責人魏博文介紹 , 阿里云升級了大數據引擎 , 并聯合通義團隊開源了Data-Juicer庫 , 將復雜的數據預處理流程封裝為易用的算子和Pipeline , 大大降低了企業數據準備的門檻 。
△圖:汽車之家倉頡大模型團隊負責人馬寶昌分享汽車之家后訓練實踐
百融云創是一家To B的人工智能技術服務公司 , 百融云創大模型首席算法科學家蘇海波介紹 , “在金融營銷、催收等場景下 , 我們希望通過后訓練煉出一位能主動挽留、主動談判的金牌銷售專家 。 而后訓練所需的人工銷售的原始通話數據包含大量口語詞、疊字、錯別字 , 且人工回答水平不一 。 ”
百融云創建立了一條工業化的數據生產線:首先通過模型自動過濾掉不合規、回答錯誤的數據 , 然后利用大模型自動校正文本中的錯別字、重復和口語化表達 , 大幅減輕對高成本的人工校對的需求;再對人工話術進行潤色和優化 , 提升話術質量;最后 , 通過數據合成的方式 , 擴充高質量的種子數據 。 這一系列流程 , 將原始數據變成了模型可以理解的高質量數據 。
第二步:選擇合適的基座模型 , 匹配業務需求
有數據 , 要有好模型 。 選對基座模型是后訓練成功的一半 。 網易、汽車之家、微博、夸克、知乎、盈米基金、百融云創等企業都不約而同地選擇了通義千問系列模型 。
汽車之家倉頡大模型團隊負責人馬寶昌解釋道:“首先 , 通義千問的模型效果非常領先;其次 , 其尺寸覆蓋廣泛 , 從幾億參數的小模型到千億級的大模型一應俱全 , 能滿足不同場景對性能和成本的平衡需求;最后 , 其架構設計和開源生態對后訓練深度支持 。 如Data-Juicer等數據處理框架和高效的訓練框架 , 讓企業在后訓練時沒有后顧之憂 。 ”
阿里云是國內最早開源自研大模型的“大廠” , 也是全球唯一一家積極研發先進AI模型并且全方位開源的云計算廠商 , 業界率先實現“全尺寸、全模態”的全面開源 。 從2023年至今 , 阿里通義團隊已開源300多款模型 , 包含大語言模型通義千問及視覺生成模型通義萬相等兩大基模系列 , 開源囊括文本生成模型、視覺理解/生成模型、語音理解/生成模型、文生圖及視頻模型等全模態 。
目前 , 通義千問衍生模型數量已突破17萬 , 超越美國Llama模型 , 通義成為全球第一AI開源模型 。 通義千問在全球下載量超過6億 , 在HuggingFace社區2024年全球模型下載量中千問占比超30% , 穩居第一 。
更難能可貴的是 , 通義千問在開源的同時 , 開放了訓練策略和配套方案 。
根據通義實驗室算法科學家郁博文介紹 , 通義千問3在發布時即配套提供量化、蒸餾或推理加速方案 , 在開源的同時能獲得VLLM、SGLang等開源社區項目的Day 0適配支持 , 并提供FP8、AWQ和GGUF等各種格式的量化模型供社區使用 , 間接提升了后訓練成果的可用性。
企業進行后訓練的另一大挑戰在于工程化落地 。 阿里云智能集團計算平臺事業部解決方案負責人魏博文介紹 , 阿里云人工智能平臺PAI打造了一套全棧解決方案 , 幫助企業的大模型后訓練應對算力、工程化和部署三大障礙 。
針對主流的MoE架構強大的算力與訓練框架 , 阿里云人工智能平臺PAI通過自適應通信計算掩蓋、負載均衡等技術 , 實測可將通義千問3的訓練端到端提效3倍;阿里云人工智能平臺PAI提供了針對MoE模型的高性能推理框架 , 可將推理吞吐提升70%以上 。 更重要的是 , 所有復雜技術都被封裝進了低代碼環境中 , 用戶通過點選即可一鍵式完成從模型選擇、后訓練、測評到部署的全流程 。
企業選定基模后 , 需通過技術手段讓模型與業務目標對齊 , 不僅要注入知識 , 更要使其具備專家級的決策能力 , 并兼顧效果、成本與響應速度 , 許多企業因此選擇了模型蒸餾方案 。
微博內容理解技術總監賈遂賓介紹 , 面對每天數千萬條內容 , 直接部署百億甚至千億參數的大模型成本過高 。
微博的做法是 , 先用海量高質量數據對通義千問多模態大模型進行預訓練 , 使其具備強大的內容理解能力 , 然后將這個強大的多模態模型的能力 , “蒸餾”到一個更輕量的7B(70億參數)模型上 。
這樣既獲得了接近大模型的效果 , 又能以更低的成本 , 對微博海量內容應用內容甄別、標簽識別等任務 。 實現了效果與效率的更好平衡 。
經過后訓練 , 微博的內容理解中臺對一條看似日常的明星演唱會視頻 , 能生成“娛樂明星、內地明星、華語音樂、明星飯拍路透、音樂演出”等極為精細且準確的多層級標簽 , 這一效果是通用大模型難以企及的 。
△圖:微博內容理解技術總監賈遂賓介紹微博的多模態垂直大模型后訓練
網易伏羲在游戲智能NPC場景中 , 同樣面臨實時互動的低時延要求和大規模部署的成本壓力 。
據網易伏羲語言智能組負責人張榮升介紹 , 網易伏羲采用大模型蒸餾+輕量化部署技術方案 , 確保高質量的AI交互體驗能以可接受的成本 , 覆蓋上千萬玩家 。
△圖:網易伏羲語言智能組負責人張榮升在云棲大會《大模型后訓練:打造企業專屬智能引擎》論壇分享 。
第三步:設計獎勵機制 , 教會模型何為“好”與“壞”
在大模型后訓練中 , 獎勵機制(Reward Mechanism)的核心任務是將復雜的商業目標和人類偏好 , 轉化為模型在訓練過程中能夠學習和優化的數值信號 。 它不是簡單地判斷對錯 , 而是為模型提供一個“導航” , 告訴它在無數可能的輸出中 , 哪些行為更接近“好”的標準 。
Pokee.ai創始人、Meta前應用強化學習部門負責人朱哲清介紹 , 強化學習的初級形態RLHF(基于人類反饋的強化學習) , 依賴人類標注員對模型輸出進行打分 , 以此作為獎勵信號 。 這種方式雖能對齊主觀偏好 , 但受限于高昂的成本與數據標注質量 , 泛化能力存在瓶頸 。
真正的突破來自于RLVR(基于可驗證反饋的強化學習) 。 它在代碼、數學等擁有客觀評判標準的領域 , 通過構建自動化驗證系統作為獎勵模型 , 實現了“規則即獎勵”的閉環 , 從而擺脫了對人力標注的依賴 。
然而 , 現實世界的商業邏輯遠比代碼和數學要復雜 , 許多標準無法用簡單的規則來定義 。
朱哲清指出 , “業界的前沿趨勢是利用大模型本身作為評判者 , 即‘自然語言獎勵’(Natural Language Reward)”——通過將復雜的文本序列輸入一個強大的判別模型 , 直接通過自然語言指令詢問“這個證明是對是錯 , 錯在哪里?” , 由模型來判斷 , 其表述能力和覆蓋范圍遠超僵化的規則系統 。
盈米基金的智能投顧場景正在探索獎勵機制 。
盈米基金CTO劉永介紹道 , “資產配置投資顧問可以說是信任和專業度要求最高的領域之一 , 對精準性要求高、對幻覺容忍度極低 。 智能投顧把錢放進去只是個開始 , 之后怎么辦?什么叫投資好、體驗好?什么叫不好?這是核心難題 。 ”
對此 , 盈米基金選擇的解法便是與阿里云合作 , 核心目標是將人類投顧專家的解題框架和風控邏輯內置到模型中 , 探索可行的、可落地的獎勵函數設計 。 雙方基于事實規則和長期客戶的真實反饋數據 , 來探索和定義適用于基金投顧場景的獎勵函數 。
汽車之家倉頡大模型團隊負責人馬寶昌分享道 , 他們對模型的要求極為嚴格 , 對“幻覺”容忍度極低;性能方面 , 推理延遲要足夠低 , 滿足實時交互需求 。 在模型上線后 , 會通過A/B測試等方式 , 關注用戶的最終轉化率 , 如是否留資、是否購車等 , 來衡量其對核心業務的貢獻 。 同時結合準確率達到99.5%以上的KAG(基于領域知識圖譜的內容生成) , 讓模型回答真實可信 。
第四步:構建評估體系 , 確保投入回報
模型評估是衡量后訓練成效的最終標尺 , 其核心在于用客觀、可量化的結果證明技術投入的商業價值 。
盈米基金與阿里云合作 , 從150多萬個真實用戶問題中 , 篩選并構建了覆蓋600個典型場景的基金投顧領域評測基準(Benchmark) 。 這個可復現、可執行的Benchmark , 為后續的模型迭代提供了統一的度量衡 。
盈米基金與阿里云點金團隊共同進行了評測集的設計 。 2025云棲大會發布的Qwen-Dianjin-TIR模型就是一個面向基金投顧領域的垂直領域模型 , 它證明了 , 通過精心設計的獎勵機制 , 已經實現了4B參數量的垂直模型在多輪工具調用 , 準確性指標甚至超過了通用32B參數量模型的效果 , 基金投顧領域智能體應用測試集也即將發布 。
百融云創則選擇了通義千問系列大模型作為基礎模型 , 結合SFT與DPO(直接偏好優化)等后訓練方法 , 使大模型能像金牌銷售一樣主動挽留客戶、貸后催收 , 成功讓模型的回答質量分提升了10% , 更將業務違規率從1%降至千分之三 。

△圖:由阿里云高級解決方案架構師張慧濤主持的《大模型后訓練:打造企業專屬智能引擎》論壇圓桌對話 , 企業探討后訓練應用實踐
而對于夸克這一AI助手而言 , 后訓練技術在規模化復制專家思維上 , 實現了巨大的業務價值 。
阿里集團智能信息事業群資深算法專家姜曉希分享道 , 夸克需要同時應對AI搜索、專業寫作、高考志愿填報等多個差異巨大且專業性極強的復雜場景 。 夸克基于通義千問大模型 , 通過“持續預訓練+領域后訓練”的模式 , 衍生出教育、健康、高考等一系列領域專家大模型 。 在技術方案上 , 夸克借助RLHF、RLVR等手段 , 結合優化偏好 , 進一步提升真實場景應用的能力 , 讓夸克得以具備“策略生成”的復雜能力 。
在高考志愿填報這種“一考定半生”的場景中 , 挑戰極大;各省政策不同、競爭激烈、考生需求極其個性化 。 夸克借助后訓練 , 將頂尖志愿規劃師的思維模式復刻給了大模型 。 2025年 , 夸克高考志愿大模型累計提供了超過1200萬份志愿報告 , 服務了4000萬用戶 , 讓曾經稀缺的專家咨詢服務變得普惠 。
△圖:阿里集團智能信息事業群資深算法專家姜曉希分享夸克的后訓練實踐
在游戲智能NPC領域 , 大模型后訓練正讓NPC從“提線木偶” , 變成游戲世界里有靈魂的居民 。 比如在《新倩女幽魂》端游的家臣系統中 , 玩家可招募家園NPC作為家臣 , NPC會基于多維度決策模型 , 綜合參考自身基準薪資、與玩家的關系親疏及自身出身背景等信息 , 最終判斷是否接受玩家報價 。 招募完成后 , NPC也并非 “有求必應” , 其回應會根據玩家態度、雙方實時關系等游戲狀態動態調整 。 這種“討價還價”背后 , 正是針對游戲場景的后訓練精準調控 。
正如阿里云高級解決方案架構師張慧濤在圓桌對話中所言 , ”在過去的幾年里 , 后訓練得到了越來越多的青睞和關注 , 后訓練的方法也在越來越多的企業被驗證、被采納、被大規模地使用 。 ”
通過這條四步路徑 , 后訓練所創造的商業價值 , 也正在金融、內容社區、汽車、AI搜索等領域集中爆發 , 成為企業真正的護城河 。
當基礎大模型的能力日趨相近 , 真正的AI競爭力 , 正來自于企業如何利用自身獨有的場景、數據和業務理解 , 通過后訓練對模型進行深度改造 , 構建無法被復制的專屬智能引擎 。 這 , 才是決勝未來的關鍵一步 。

— 完 —
量子位 QbitAI · 頭條號
【真正的AI競爭力,藏在大模型“后訓練”這一步】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀