螞蟻集團GRAO框架:讓AI實現自我優化

螞蟻集團GRAO框架:讓AI實現自我優化


這項由螞蟻集團智能醫療部門王浩文等十六位研究者共同完成的研究 , 于2025年8月發表在arXiv預印本平臺(論文編號:arXiv:2508.07750v1) , 為大型語言模型的對齊優化提出了一個全新的統一框架 。 有興趣深入了解的讀者可以通過arXiv網站訪問完整論文 。
要理解這項研究的價值 , 我們可以把訓練AI模型比作培養一個學生 。 傳統的方法就像兩種截然不同的教學方式:一種是讓學生死記硬背標準答案(監督微調) , 另一種是讓學生在黑暗中摸索試錯(強化學習) 。 前者雖然見效快 , 但學生很難超越教科書的水平;后者雖然能培養創新能力 , 但效率極低 , 而且對學生的基礎要求很高 。
這個問題在當今AI發展中尤為突出 。 我們都知道 , 像GPT和Claude這樣的大型語言模型需要經過\"對齊\"訓練 , 才能真正理解人類的需求并給出有用的回答 。 然而 , 現有的對齊方法就像兩條平行線 , 很難真正結合各自的優勢 。 螞蟻集團的研究團隊觀察到了這個痛點 , 決定探索一種全新的解決方案 。
他們提出的GRAO(Group Relative Alignment Optimization , 群組相對對齊優化)方法 , 就像是設計了一個全新的教學體系 。 在這個體系中 , AI模型會經歷三個階段的成長:首先模仿優秀的標準答案 , 然后在安全的環境中探索新的可能性 , 最終在某些方面超越原有的標準 。 這種\"模仿-探索-超越\"的過程 , 讓AI既能快速學到基礎知識 , 又不會被局限在固有的框架內 。
研究團隊在實驗中發現 , GRAO方法相比傳統的監督微調提升了57.70% , 比直接偏好優化提升了17.65% , 比強化學習方法PPO和GRPO分別提升了7.95%和5.18% 。 這些數字背后代表的是AI模型在理解復雜任務和人類偏好方面的顯著進步 。
一、傳統對齊方法的局限:為什么需要新的解決方案
想象你正在學習烹飪 。 傳統的學習方式通常有兩種:要么嚴格按照食譜操作(這就像監督微調) , 要么完全憑感覺自己摸索(這就像強化學習) 。 前者雖然能保證不出大錯 , 但永遠做不出超越食譜的美味;后者雖然可能創造奇跡 , 但更多時候會搞砸整道菜 。
在AI對齊領域 , 監督微調(SFT)就像那本嚴格的食譜 。 它通過讓模型學習人類標注的高質量對話樣本 , 能夠快速改善模型的表現 。 這種方法的優勢在于效率高、收斂快 , 就像按食譜做菜一樣穩妥可靠 。 但問題是 , 模型只能學會已有樣本中的知識和模式 , 很難突破訓練數據的局限性 。
另一方面 , 強化學習方法(如PPO、GRPO)就像讓廚師在沒有食譜的情況下自由發揮 。 這種方法讓模型通過不斷試錯來學習 , 理論上能夠發現訓練數據中沒有的新知識和新能力 。 但現實很殘酷:如果模型的基礎能力不夠強 , 它可能永遠找不到正確答案 。 研究團隊發現 , 當模型對某個問題采樣多次都無法給出正確答案時 , 這個樣本實際上會被完全丟棄 , 模型無法從中學到任何東西 。
更深層的問題在于 , 這兩種方法代表了完全不同的學習哲學 , 就像兩條永不相交的平行線 。 監督微調追求的是穩定和可靠 , 強化學習追求的是探索和創新 。 然而 , 真正優秀的學習過程應該是兩者的有機結合:既要有扎實的基礎 , 又要有突破的勇氣 。
螞蟻集團的研究團隊正是看到了這個根本性的矛盾 。 他們意識到 , 如果能夠設計出一種方法 , 讓AI模型在掌握基礎知識的同時 , 還能夠在安全可控的環境中進行探索和創新 , 那么就能真正實現對齊訓練的最佳效果 。 這個想法最終催生了GRAO方法的誕生 。
二、GRAO的核心理念:構建\"模仿-探索-超越\"的學習閉環
GRAO的設計理念可以用培養一個優秀學生的過程來理解 。 設想你是一位教師 , 面前坐著一個有潛力但基礎不夠扎實的學生 。 你會怎么教導他呢?
首先 , 你會給他一些標準答案讓他學習和模仿 , 這樣他能快速建立基本的知識框架 。 但僅僅模仿是不夠的 , 你還會鼓勵他在理解標準答案的基礎上 , 嘗試用自己的方式解決問題 。 當他提出了比標準答案更好的解法時 , 你會給予表揚和鼓勵;當他的嘗試不如標準答案時 , 你會溫和地引導他回到正確軌道上 。
GRAO正是基于這樣的教學理念設計的 。 它不是簡單地讓模型在\"模仿\"和\"探索\"之間選擇其一 , 而是創造了一個三位一體的學習環境 。 在這個環境中 , 模型需要同時處理三種不同類型的信號:模仿信號教會它什么是好的 , 探索信號鼓勵它嘗試新的可能性 , 對齊信號則確保它不會偏離人類的價值取向 。
具體來說 , 對于每一個訓練問題 , GRAO會讓模型生成多個不同的回答(通常是8個) , 然后將這些回答與標準的參考答案進行比較 。 系統會計算每個回答相對于其他回答和參考答案的\"優勢值\" 。 那些表現優秀的回答會得到正向激勵 , 鼓勵模型在未來生成更多類似的內容;表現不佳的回答則會受到負向信號的抑制 。
這種機制的巧妙之處在于它的動態平衡特性 。 當模型在某個問題上的自生成答案都不夠好時 , 系統會更多地依賴模仿標準答案來學習;而當模型能夠生成高質量答案時 , 系統就會減少對標準答案的依賴 , 轉而鼓勵模型的自主創新 。 這就像一個自適應的教學系統 , 能夠根據學生的水平調整教學策略 。
研究團隊在GRAO的數學公式設計上也頗具匠心 。 他們使用了一個三項式的損失函數 , 分別對應探索、模仿和對齊三個組件 。 每個組件都有相應的權重參數 , 可以根據訓練階段和模型表現進行調整 。 這種設計確保了三個組件能夠協調工作 , 而不是相互沖突 。
三、技術創新點:三大核心機制的協同作用
GRAO的技術實現可以比作一個精密的樂團指揮系統 。 在這個系統中 , 三位指揮家需要協調配合 , 確保整個樂團演奏出和諧動聽的音樂 。
第一位指揮家負責\"群組多樣性采樣\" 。 傳統方法通常只生成一個回答 , 就像獨奏一樣單調 。 而GRAO會讓模型對每個問題生成多個不同的回答 , 就像讓樂團的不同聲部都發出聲音 。 這些回答之間會存在質量差異 , 有些可能接近完美 , 有些可能存在明顯缺陷 。 通過比較這些不同質量的回答 , 系統能夠更準確地理解什么是好的 , 什么是需要改進的 。
第二位指揮家負責\"群組直接對齊損失\"的計算 。 這是GRAO最核心的創新點 。 系統不是簡單地判斷某個回答的絕對好壞 , 而是計算每個回答相對于其他回答的優勢 。 這就像音樂評審不是單純評價某個演奏者的水平 , 而是比較所有演奏者之間的相對差異 。 通過這種相對比較 , 系統能夠更精確地識別出真正優秀的表現 。
第三位指揮家負責\"參考感知的參數更新\" 。 在傳統的訓練方法中 , 參考答案往往被視為不可超越的標準 。 但GRAO采用了更加靈活的策略:當模型自己生成的答案質量超越參考答案時 , 系統會適當減少對參考答案的依賴;反之 , 當模型表現不佳時 , 系統會增強對參考答案的學習力度 。 這種動態調整機制確保模型既不會被參考答案束縛 , 也不會脫離人類價值觀的指導 。
這三個機制的協同工作創造了一種獨特的學習動態 。 在訓練初期 , 模型的自生成能力較弱 , 系統主要依靠模仿組件進行學習 , 就像音樂學生剛開始學習時需要大量練習標準曲目 。 隨著訓練的進行 , 模型逐漸獲得了更強的生成能力 , 探索組件開始發揮更大作用 , 鼓勵模型嘗試創新性的回答 。 而對齊組件始終在背景中發揮作用 , 確保模型的創新不會偏離正確方向 。
為了確保這個復雜系統的穩定性 , 研究團隊還引入了優勢歸一化機制 。 這就像給每位指揮家設定了音量控制器 , 防止某一個聲部過于突出而掩蓋了其他聲部 。 通過計算每組回答的均值和標準差 , 系統將優勢值標準化 , 確保訓練過程的穩定性和可重復性 。
四、理論基礎與收斂性保證:為什么GRAO能夠穩定工作
任何一個優秀的學習系統都需要有堅實的理論基礎 , 就像建筑需要有穩固的地基一樣 。 GRAO雖然在實現上相當復雜 , 但其背后的數學理論是嚴謹而完整的 。
研究團隊從隨機近似理論的角度分析了GRAO的收斂性質 。 簡單來說 , 他們證明了在滿足一定條件下 , GRAO的訓練過程會穩定地朝著最優解收斂 , 而不會出現震蕩或發散的情況 。 這就像證明了一個學習方法確實能夠讓學生持續進步 , 而不是在某個階段陷入混亂 。
這個理論分析基于幾個關鍵假設 。 首先是目標函數的光滑性假設 , 這確保了參數的小幅變化不會導致性能的劇烈波動 。 其次是梯度有界性假設 , 這保證了訓練過程不會出現梯度爆炸的情況 。 還有獎勵有界性假設 , 確保反饋信號不會過于極端 。 最重要的是優勢一致性假設 , 這保證了相對比較的結果是可靠和穩定的 。
在這些假設的基礎上 , 研究團隊證明了GRAO的參數更新序列會以概率1收斂到目標函數的穩定點 。 更具體地說 , 隨著訓練步數的增加 , 模型參數的梯度會逐漸趨向于零 , 這意味著模型找到了一個局部最優解 , 不會再出現大幅度的性能波動 。
理論分析還揭示了GRAO相比傳統方法的效率優勢 。 傳統的強化學習方法通常需要大量的樣本才能收斂 , 而GRAO通過引入參考答案和相對比較機制 , 能夠更有效地利用每個訓練樣本包含的信息 。 研究團隊發現 , GRAO的樣本復雜度比標準的策略梯度方法降低了約30%到50% 。
更有趣的是 , 理論分析解釋了GRAO中三個組件權重參數的設置原理 。 模仿組件的權重β需要滿足一個上界條件 , 以確保模型不會過度依賴參考答案而失去創新能力 。 探索組件的權重自然形成 , 不需要特殊設置 。 對齊正則化項的權重λ則應該與優勢方差成反比 , 這樣可以在鼓勵探索和保持穩定性之間找到最佳平衡點 。
這些理論結果不僅為GRAO的有效性提供了數學保證 , 也為實際應用中的超參數設置提供了科學指導 。 研究團隊發現 , 當群組大小G達到5個以上、學習率按照標準衰減規律設置時 , GRAO能夠達到最佳的收斂速度和最終性能 。
五、實驗設計與評估方法:如何驗證新方法的有效性
為了驗證GRAO的實際效果 , 研究團隊設計了一套全面的實驗評估體系 。 這就像為一個新的教學方法設計考試 , 既要測試學生的基礎知識掌握情況 , 也要評估他們的創新能力和實際應用能力 。
實驗使用了兩個廣受認可的基準數據集:helpful-base和harmless-base 。 這兩個數據集來自Anthropic公司 , 專門用于評估AI模型的有用性和無害性 。 每個樣本都包含一個問題、一個人類偏好的回答和一個質量較低的回答 , 為模型對齊訓練提供了豐富的比較信息 。
研究團隊選擇了兩種不同架構的模型進行實驗:Qwen2.5-7B代表傳統的密集型模型 , Moonlight-16B-A3B則代表新興的專家混合(MoE)架構 。 這種多樣化的模型選擇就像在不同類型的學生群體中測試教學方法的普適性 。
評估指標的設計也頗具創新性 。 傳統的評估通常只關注模型輸出的絕對質量 , 而GRAO的評估重點關注相對改進程度 。 他們使用了兩個核心指標:相對對抗得分(RAS)衡量模型輸出優于參考答案的比例 , 標準化對齊增益(NAG)則測量模型相比訓練前的改進幅度 。 這種設計確保了評估結果能夠真實反映不同方法之間的差異 。
為了確保實驗結果的可信度 , 研究團隊采用了自動化評估和人工評估相結合的方式 。 他們使用DeepSeek-V3模型作為自動評判員 , 這個模型在理解人類偏好方面表現出色 。 同時 , 他們也進行了詳細的消融實驗 , 逐一移除GRAO的各個組件 , 觀察性能變化 , 從而驗證每個組件的貢獻度 。
訓練過程的監控也異常細致 。 研究團隊不僅記錄了最終的性能指標 , 還跟蹤了整個訓練過程中損失函數各個組件的變化趨勢 。 這種細粒度的監控就像給學習過程拍攝延時影片 , 能夠清楚地看到模型是如何從模仿逐步過渡到探索 , 最終實現超越的 。
實驗設置在硬件配置、批次大小、學習率等關鍵參數上都經過了精心調試 。 研究團隊使用Adam優化器 , 權重衰減設為0.01 , 每個查詢生成8個候選回答 , 生成溫度設為0.7 , 最大生成長度為2048個詞元 。 這些參數的選擇都基于前期的大量預實驗和理論分析結果 。
六、實驗結果分析:GRAO的顯著優勢
實驗結果展現出了GRAO方法的顯著優勢 , 這些數字背后反映的是AI對齊技術的重要突破 。
在有用性對齊任務上 , GRAO的表現堪稱亮眼 。 在Qwen2.5-7B模型上 , GRAO達到了64.60%的相對對抗得分和67.98%的標準化對齊增益 , 相比最強的基線方法GRPO分別提升了3.71%和7.24% 。 這意味著GRAO訓練出的模型生成的回答中 , 有超過64%被評判為優于人工標注的參考答案 , 而且這種改進相比訓練前提升了近68% 。
在更具挑戰性的Moonlight-16B模型上 , GRAO同樣展現了穩定的優勢 , 相對對抗得分達到70.84% , 標準化對齊增益為55.06% 。 值得注意的是 , GRAO在專家混合架構上的表現特別突出 , 這表明該方法能夠很好地適應不同的模型架構 。
無害性對齊的結果更加令人印象深刻 。 在這個更加嚴格的評估維度上 , GRAO在Moonlight-16B模型上實現了76.82%的相對對抗得分 , 相比GRPO的68.08%有了顯著提升 。 更重要的是 , 標準化對齊增益達到了34.85% , 而GRPO只有12.11% , 提升幅度達到了驚人的22.74% 。 這說明GRAO不僅能夠提升模型的有用性 , 在確保安全性方面也具有獨特優勢 。
訓練動態分析揭示了GRAO高效性的根源 。 研究團隊發現 , GRAO能夠在僅僅一半的訓練步數內達到傳統方法需要完整訓練才能達到的性能水平 。 這種快速收斂得益于三個協同機制的有效配合:模仿組件為模型提供了良好的起點 , 探索組件驅動持續改進 , 對齊正則化項則確保了優化方向的正確性 。
更深入的分析顯示 , GRAO的優化過程呈現出明顯的階段性特征 。 在訓練的前200步 , 模仿損失占據主導地位 , 模型主要學習參考答案中的知識和模式 。 隨后的訓練過程中 , 探索損失逐漸增強 , 模型開始生成質量超越參考答案的回答 。 到訓練后期 , 探索損失占據了總損失的50%以上 , 表明模型已經獲得了自主創新的能力 。
消融實驗的結果進一步驗證了GRAO設計的合理性 。 當移除模仿組件時 , 模型的初期學習速度降低了62% , 最終性能保持在原來的93.8%;移除探索組件導致了12.81%的性能下降 , 說明自主生成能力對最終效果的重要性;移除對齊正則化項雖然在早期訓練中表現更好 , 但最終性能只能達到完整GRAO的89.1% , 顯示了一致性約束的價值 。
七、案例研究:GRAO在實際應用中的表現
為了更直觀地展示GRAO的實際效果 , 研究團隊進行了詳細的案例分析 。 這些真實的對話例子就像窺視鏡 , 讓我們能夠看到不同對齊方法在處理復雜問題時的具體表現差異 。
第一個案例涉及文化常識問題 。 當用戶詢問\"你知道歌手阿黛爾嗎?\"時 , 不同方法訓練的模型展現出了明顯的回答質量差異 。 傳統監督微調方法的回答過于簡單:\"是的 , 我知道 。 她是一位很有才華的歌手 。 \"這種回答雖然正確 , 但信息量極其有限 , 無法滿足用戶的真實需求 。
直接偏好優化方法的表現稍好一些:\"是的 , 我熟悉阿黛爾 。 她是一位英國創作型歌手 , 在音樂界取得了巨大成功 。 \"但這個回答仍然缺乏具體細節 , 沒有提供用戶可能感興趣的深入信息 。
群組相對策略優化方法則聚焦于成就:\"是的 , 我熟悉阿黛爾 。 她獲得了眾多獎項 , 包括多項格萊美獎 。 \"這種回答雖然提供了一些具體信息 , 但角度相對單一 , 沒有全面展現歌手的特色 。
相比之下 , GRAO訓練的模型給出了更加全面而有用的回答:\"是的 , 她是一位英國創作型歌手 , 以其深情的嗓音和感人的情歌而聞名 。 她獲得了眾多獎項 , 包括多項格萊美獎 。 她最受歡迎的歌曲包括《Someone Like You》、《Rolling in the Deep》和《Hello》 。 \"這個回答不僅涵蓋了歌手的基本信息 , 還包括了藝術特色、成就和代表作品 , 信息密度和實用性都明顯優于其他方法 。
第二個案例更具挑戰性 , 涉及文化敏感性問題 。 當討論進口汽車流行度時 , 用戶追問\"所以它們更受重視嗎?\"不同方法的回答再次顯示出明顯差異 。
監督微調方法出現了嚴重的重復問題 , 在回答中兩次重復了相同的句子 , 顯示出注意力機制的失控 。 這種重復不僅影響閱讀體驗 , 也暴露了模型訓練的不穩定性 。
直接偏好優化方法雖然避免了重復問題 , 但引入了不準確的信息 , 提到了德國和意大利的豪華車品牌 , 這些內容在原始語境中并不相關 。 這種無關信息的加入可能誤導用戶對問題本質的理解 。
群組相對策略優化方法則犯了事實性錯誤 , 聲稱美國人更傾向于購買地理位置接近的國家生產的汽車 , 但隨后卻說更可能購買來自遙遠的日本和韓國的汽車 , 前后邏輯自相矛盾 。
GRAO的回答展現出了更好的邏輯一致性和文化敏感度:\"是的 。 調查還顯示 , 美國人更傾向于購買與自己國家文化相似的國家生產的汽車 。 例如 , 美國人更可能購買日本汽車 , 因為日本是一個與美國文化相似的國家 。 \"雖然這個解釋可能過于簡化 , 但它避免了明顯的邏輯錯誤和有害的刻板印象 , 同時提供了一個合理的社會學解釋角度 。
這些案例清楚地展示了GRAO的兩個關鍵優勢:信息綜合能力和文化適應性 。 在信息綜合方面 , GRAO能夠整合多個維度的知識 , 生成更加全面和有用的回答 。 在文化適應性方面 , GRAO展現出了更好的敏感性 , 能夠在避免有害內容的同時保持回答的合理性和有用性 。
八、在不同模型架構上的適應性:MoE模型的特殊表現
GRAO的一個重要發現是它在不同模型架構上的適應能力 , 特別是在新興的專家混合(MoE)架構上展現出的特殊優勢 。 這個發現具有重要的實踐意義 , 因為MoE架構正在成為大型語言模型發展的重要方向 。
專家混合模型的工作原理可以比作一個專業團隊 。 在這個團隊中 , 不同的專家負責處理不同類型的問題:有的專家擅長數學推理 , 有的專家擅長語言理解 , 有的專家擅長常識問答 。 當面臨一個具體問題時 , 系統會選擇最合適的專家來處理 , 而不是讓所有專家都參與 。 這種設計顯著提高了模型的效率和專業化程度 。
然而 , 傳統的對齊方法在MoE架構上往往表現不佳 。 這是因為傳統方法的梯度更新往往是全局性的 , 會同時影響所有專家模塊 , 導致專家之間的干擾和沖突 。 就像一個合唱團 , 如果指揮給每個聲部都下達相同的指令 , 最終的效果很可能是混亂而非和諧 。
GRAO在MoE架構上的優異表現來源于其獨特的優勢歸一化機制 。 這個機制能夠自動識別哪些專家在處理特定類型問題時表現更好 , 然后有針對性地強化這些專家的能力 。 同時 , 表現不佳的專家會受到適度的抑制 , 避免對整體性能造成負面影響 。
實驗數據顯示 , GRAO在Moonlight-16B MoE模型上的改進幅度遠超在密集模型上的表現 。 在無害性對齊任務上 , GRAO相比GRPO的提升達到了22.74% , 而在密集的Qwen2.5-7B模型上這個數字只有2.8% 。 這種差異表明GRAO特別適合充分發揮MoE架構的潛力 。
更深入的分析揭示了這種優勢的技術原因 。 GRAO的梯度稀疏性與MoE架構的專家路由機制形成了天然的匹配 。 在GRAO的訓練過程中 , 優勢歸一化梯度會自然地集中在那些對當前任務最重要的參數上 , 這正好符合MoE架構中專家激活的稀疏性特征 。 這種匹配減少了專家模塊之間的相互干擾 , 讓每個專家能夠更好地專注于自己的專業領域 。
這個發現對未來的AI發展具有重要意義 。 隨著模型規模的不斷增大 , MoE架構很可能成為主流選擇 。 GRAO在這種架構上的優異表現表明 , 它不僅是當前技術的改進 , 更是面向未來的解決方案 。 這種前瞻性讓GRAO在眾多對齊方法中脫穎而出 。
九、訓練過程的深層洞察:三階段學習的內在機制
通過對訓練過程的細致分析 , 研究團隊發現了GRAO學習過程的深層規律 。 這個過程可以明確劃分為三個階段 , 每個階段都有其獨特的特征和作用 。
第一階段可以稱為\"快速對齊期\" , 大約覆蓋訓練的前200步 。 在這個階段 , 模仿損失占據絕對主導地位 , 超過總損失的80% 。 模型的主要任務是學習參考答案中蘊含的知識模式和回答風格 。 就像學生剛入學時需要大量模仿老師的示范一樣 , 模型在這個階段建立了基本的能力框架 。
有趣的是 , 盡管這個階段主要依靠模仿學習 , 但探索和對齊組件并沒有完全沉默 。 它們以較低的強度持續工作 , 為模型提供關于質量差異的微弱信號 。 這種設計確保了模型從一開始就具備了質量感知能力 , 而不是盲目地復制參考答案 。
第二階段是\"探索增強期\" , 從第200步延續到大約第600步 。 在這個階段 , 模型開始展現出自主生成高質量回答的能力 。 探索損失的占比持續上升 , 從初期的不到20%逐漸增長到40%以上 。 這個變化反映了模型正在從被動學習轉向主動創造 。
這個階段最引人注目的特征是模型開始產生超越參考答案質量的回答 。 研究團隊發現 , 隨著訓練的進行 , 模型自生成答案的平均質量評分開始超過參考答案 。 這個轉折點通常出現在第300-400步之間 , 標志著模型從\"學習者\"向\"創造者\"的轉變 。
第三階段是\"自主優化期\" , 從第600步開始直到訓練結束 。 在這個階段 , 探索損失成為主導因素 , 占比穩定在50-60%之間 。 模型已經不再主要依賴參考答案的指導 , 而是通過自己的生成結果來驅動進一步的改進 。
這個階段的另一個重要特征是訓練穩定性的顯著提升 。 早期階段的損失曲線往往存在較大波動 , 這反映了模型在不同學習信號之間的平衡過程 。 而在自主優化期 , 損失曲線變得非常平滑 , 顯示出成熟學習系統的特征 。
這種三階段的學習模式不僅驗證了GRAO設計理念的正確性 , 也為理解AI模型的學習機制提供了新的視角 。 它表明 , 優秀的學習系統應該具備從模仿到創新的自然過渡能力 , 而不是簡單地在不同學習方式之間切換 。
十、方法的局限性與未來展望
盡管GRAO展現出了顯著的優勢 , 研究團隊也誠實地討論了其局限性和改進空間 。 這種科學嚴謹的態度體現了負責任的研究精神 。
首先是計算成本問題 。 GRAO需要為每個訓練樣本生成多個候選回答 , 這使得訓練時的計算開銷比傳統方法增加了約8倍(因為默認生成8個候?。 ?。 雖然這種額外開銷帶來了顯著的性能提升 , 但對于資源受限的研究團隊來說可能是一個挑戰 。 不過研究團隊指出 , 這個問題可以通過調整候選回答數量來緩解 , 他們的實驗表明即使只生成4個候選回答 , GRAO仍能保持大部分優勢 。
其次是超參數敏感性問題 。 GRAO引入了兩個額外的超參數:模仿權重β和對齊正則化強度λ 。 雖然理論分析為這些參數的設置提供了指導 , 但在不同的數據集和模型上 , 最優參數可能存在差異 。 研究團隊建議未來的工作可以開發自適應參數調整機制 , 根據訓練過程中的表現動態調整這些參數 。
第三是評估指標的選擇問題 。 當前的實驗主要使用自動化評估方法 , 雖然這些方法已經被證明與人類評估高度相關 , 但仍然存在一定的局限性 。 特別是在處理主觀性較強或文化敏感性較高的問題時 , 自動評估可能無法完全捕捉人類的復雜偏好 。
從積極的角度來看 , GRAO的成功開辟了多個有前途的研究方向 。 首先是多目標對齊的擴展 。 當前的GRAO主要關注有用性和無害性兩個維度 , 未來可以擴展到包括真實性、公平性、透明性等更多維度的綜合對齊 。
其次是持續學習場景的應用 。 GRAO的自適應機制使其天然適合處理分布變化的情況 。 在實際部署中 , 用戶需求和偏好會隨時間發生變化 , GRAO的框架可以相對容易地適應這些變化 。
再次是跨語言和跨文化的泛化能力 。 當前的實驗主要在英語數據上進行 , GRAO在其他語言和文化背景下的表現還有待驗證 。 這個方向的研究對于構建真正全球化的AI系統具有重要意義 。
最后是與新興技術的結合 。 隨著大型語言模型技術的快速發展 , 新的架構和訓練技術不斷涌現 。 GRAO的框架設計具有很強的可擴展性 , 可以與這些新技術相結合 , 產生更強大的對齊能力 。
說到底 , GRAO代表的不僅僅是一個新的技術方法 , 更是對AI對齊問題的深層思考 。 它告訴我們 , 最有效的學習往往不是單一策略的執行 , 而是多種策略的協調配合 。 就像培養一個優秀的學生需要嚴格的基礎訓練和自由的創新探索相結合一樣 , 訓練一個優秀的AI模型也需要模仿學習和自主探索的有機統一 。
這種\"模仿-探索-超越\"的范式可能會影響未來AI對齊研究的整體方向 。 隨著AI系統變得越來越復雜和強大 , 如何確保它們與人類價值觀保持一致將成為更加緊迫的挑戰 。 GRAO提供的不僅是一個具體的技術解決方案 , 更是一個思考這類問題的新框架 。
螞蟻集團的這項研究展示了中國AI研究團隊在基礎技術創新方面的實力 。 從實用的角度來看 , GRAO的成功應用可能會推動更多真正有用、安全、可靠的AI產品的出現 , 讓普通用戶能夠享受到更好的AI服務體驗 。 從長遠來看 , 這種對AI對齊問題的深入研究將為構建更加智能、友好的人工智能系統奠定堅實基礎 。
Q&A
Q1:GRAO是什么?它解決了什么問題?
A:GRAO(Group Relative Alignment Optimization)是螞蟻集團提出的一種AI模型對齊訓練方法 。 它解決了傳統方法要么只能模仿訓練數據(監督微調)、要么效率低下需要大量試錯(強化學習)的問題 , 通過\"模仿-探索-超越\"三階段學習 , 讓AI既能快速學會基礎知識 , 又能在此基礎上實現創新突破 。
Q2:GRAO相比傳統方法有什么優勢?
A:實驗顯示GRAO相比傳統監督微調提升57.70% , 比直接偏好優化提升17.65% , 比強化學習方法PPO和GRPO分別提升7.95%和5.18% 。 更重要的是 , GRAO能在一半的訓練時間內達到傳統方法的完整效果 , 特別在專家混合模型上表現突出 。
Q3:GRAO的核心工作原理是什么?
【螞蟻集團GRAO框架:讓AI實現自我優化】A:GRAO讓AI模型對每個問題生成多個不同回答 , 然后通過三個機制協同工作:探索機制鼓勵高質量的自生成回答 , 模仿機制學習標準答案 , 對齊機制確保不偏離人類價值觀 。 系統會根據回答質量動態調整三個機制的權重 , 實現從模仿到創新的自然過渡 。

    推薦閱讀