告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片

告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

文章圖片


AntResearchNLP團隊 投稿
量子位 | 公眾號 QbitAI
相信大家都有這樣一個體驗 。
跟AI無論什么對話 , 感覺都是說空話套話 。


有時候為了讓AI懂自己 , 許多用戶甚至不得不學習復雜的“提示詞技巧” , 手動編寫長長的指令 , 像是在給AI做“崗前培訓” 。

那么如何實現高情商AI?螞蟻通用人工智能研究中心自然語言處理實驗室提出了一個叫AlignXplore的方法——
通過強化學習 , AlignXplore能夠通過深度思考從用戶行為中歸納出他/她的偏好 , 并且這種對人類偏好的洞察可以隨著用戶行為的變化而動態更新 。
更有趣的是 , 當把歸納好的偏好描述遷移到一個下游對齊模型時 , 能夠讓這個模型的個性化對齊能力得到顯著提升 。

如何讓AI真正懂你?如何讓AI真正“懂”你?我們需要讓AI從一個“規則執行者”進化成一個“模式發現者” 。
這意味著 , 它要掌握一種被認為是人類智慧核心的能力——歸納推理(Inductive Reasoning) 。
△“千人一面”的對齊方式無法滿足用戶多樣的個性化需求 , 紅字藍字是對應用戶的偏好描述
事實上 , AI早已對演繹推理(Deductive Reasoning)駕輕就熟 , 具備令人驚嘆的數學解題和代碼編寫能力 。
你給它一個確定的前提(如“求解二次方程 ax2+bx+c=0”)和一套不變的規則(求根公式) , 它就能通過一步步嚴密的邏輯推演 , 給出一個唯一、可驗證的正確答案 。 這是一個典型的“自上而下”(Top-Down)的過程:從普適的公理或規則出發 , 推導出一個具體的、必然的結論 。在這個世界里 , 沒有模糊地帶 , 只有對與錯 。
而歸納推理則完全相反 , 它是一個自下而上(Bottom-Up)的過程:它沒有預設的“個人說明書” 。 它的“線索”就是你的每一個行為: 你追問了什么問題 , 說明你關心什么;你跳過了哪個回答 , 說明你不喜歡什么風格;你對哪個笑話點了贊 , 暴露了你的幽默感 。 它的“任務”就是從這些海量的、碎片化的行為數據中 , 提煉出專屬于你的互動模式與偏好規律 。 通過歸納推理 , AI有潛力成為你的“知心姐姐” , 主動拼湊出一個完整的你 。
舉個例子 , 讓我們來扮演一次AI知心姐姐 , 看看它是如何通過兩次看似無關的對話 , 就精準捕捉到你的“潛臺詞”的:
第一次交互:你問“什么是人工智能?它在商業和生活中是怎么用的?” 。 AI會立刻開始在幕后推理你的偏好:“你可能對AI技術有特別的興趣 , 但似乎更關心實際應用 , 也許是商業導向” 。 第二次交互:你想學習冥想 , 在兩個候選回答中 , 你選擇了提供具體步驟的那個 , 而不是闡述冥想哲學的回答 。 AI會立刻更新它對你偏好的理解:“你的偏好是獲取能解決眼前需求的、務實的指導 , 而不是理論探討 。 ”這種漸進式的學習和優化 , 讓AI的“記憶”不再短暫 。 隨著一次次的交互 , 它會不斷收集新的線索 , 驗證并修正之前的假設 , 對你的“人物畫像”進行一次又一次的精修 。 最終 , 它不再是被動回答問題的機器 , 而是在主動地、持續地學習和理解你是誰 。
這 , 就是我們通向真正個性化AI的第一步 。
AlignXploreAlignXplore的訓練包括兩個階段 。

第一階段:冷啟動訓練(Cold-start Training)——拜師學藝 。
研究團隊首先引入一個更強大的AI作為“導師模型”

。 這個導師會生成大量高質量的“教學案例” 。 對于每個用戶的行為信號集合

,

會生成多組候選的推理鏈r和相應的偏好描述d利用獎勵函數R(r , d)進行篩選來獲取高質量數據

。 通過在

上進行SFT , 實現偏好歸納模型的冷啟動 。



其中

代表可能存在的歷史偏好 , 而G是為每個實例生成的候選樣本數量 。 這里獎勵函數定義為:



其中 ,

是下游大語言模型R對回復的偏好打分函數 。 這個通用的獎勵框架可以被實例化為兩種具體的獎勵函數 , 用于模型的訓練與評估:
1、

(基于偏好判斷的獎勵)
R作為一個偏好判斷模型 , 直接評估在給定推斷出的偏好d后 “



更好”的概率 , 最大化與用戶真實偏好的一致性:


提供了更穩定和有效的訓練信號 , 是AlignXplore在訓練和評估中采用的核心獎勵函數 。
2、

(基于生成概率的獎勵)
R作為一個回復生成模型 , 衡量在加入偏好描述d前后 , 模型生成較優回復

與生成較差回復

間的對數概率差值是否有提升:

第二階段:強化學習(Reinforcement Learning)——實戰修行 。
在這一階段 , 采用GRPO算法訓練 , 模型會針對用戶的行為 , 嘗試生成多種不同的推理路徑和偏好結論

。 隨后 , 系統會根據這些結論的準確性給予“獎勵”或“懲罰” 。 通過這種不斷的試錯和優化 , 模型學會了如何將初步的分析提煉成更精準、更具指導性的判斷 。
優化策略定義如下:

流式偏好推斷機制AlignXplore模型支持流式偏好推斷機制 , 即不再需要反復回看用戶冗長的歷史記錄 , 而是像處理一條源源不斷的數據流一樣 , 實時、增量地更新對用戶的理解——就像它在之前的例子中發現用戶“務實導向”的風格一樣 。
這種“流式”設計帶來的好處是顯而易見的:
首先 , 它大大提高了生成效率;
其次 , 它極為靈活 , 當用戶從休閑模式切換到工作狀態時 , 它能迅速迭代出一個新的“工作版”偏好 , 而不是固執地用舊眼光看用戶 。 這才是真正能跟上用戶節奏的動態進化系統 。
實驗結果在域內測試集AlignX_test和域外測試集P-Soups上 , AlignXplore模型在個性化對齊任務上取得了顯著的成功 , 相較于基座模型DeepSeek-R1-Distill-Qwen-7B平均提升了15.49% 。
△AlignXplore與各種推理/非推理模型在域內外數據集上的表現
更重要的是 , 它展現了強大的綜合能力:
高效性: 即使互動歷史變得非常長 , 流式推理機制也能保持穩定的響應速度和準確率 , 不會像傳統方法那樣需要每次編碼所有行為信號致使越來越慢 。
△隨著互動的進行 , 流式推理機制下的響應速度和準確率都保持穩定
泛化能力:它不僅能處理特定的反饋數據 , 還能從用戶發布的帖子user-generated content (UGC)等不同形式的內容中學習 , 并且其推斷出的偏好也能成功地應用于與訓練時不同的下游模型 , 包括QwQ-32B、DeepSeek-R1-671B等 。
△泛化性實驗
魯棒性:即使用戶的偏好發生改變甚至反轉 , AlignXplore也能靈活適應 , 不會產生劇烈的效果波動 。
△即便反轉初始行為信號的偏好 , 流式推理機制也能讓模型靈活調整偏好推斷
總結該工作第一作者為人大高瓴一年級博士生李嘉楠 , 目前在螞蟻實習;螞蟻通用人工智能研究中心自然語言處理實驗室關健、武威為共同第一作者、通訊作者 。
AlignXplore是大模型個性化路上的一個全新的嘗試 。 在SOTA結果的背后 , 這項研究其實有很多思考:
在智力上限被一波又一波推高的當下 , 如何規模化訓練大模型“情商”是一個沒有得到足夠關注卻又十分重要的問題 。 畢竟誰會拒絕一個既聰明又有溫度的AI呢? 深度思考下的長思維鏈是大模型智能能力的主要推動力 。 深度思考本身消耗巨大 , 那么如果只用來刷分 , 是不是有點浪費呢?相比于結果 , 推理過程中產生的知識是不是更有價值呢?AlignXplore可以看作是推理知識在用戶理解領域進行遷移應用的一個嘗試 。 畢竟相對于艱深的數學知識 , 用戶理解知識更容易被看懂 , 也更容易落地 。 如果客觀問題都很快會被AI解決 , 那么主觀問題該怎么辦呢?這個世界上到底是客觀問題多還是主觀問題多呢?無論如何 , 研究團隊認為個性化是通往主觀世界的一條重要通道 , 而AlignXplore是在這條通道上的一次大膽嘗試 。 期待未來有更多相關研究能夠涌現 ?!?完 —
量子位 QbitAI
【告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀