中科大少年班校友搞出“會進(jìn)化”的AI記憶，解題步驟直接砍半_中國科學(xué)技術(shù)大學(xué)|deepmind

文章圖片

文章圖片

今年 26 歲的魏天心，是中國科學(xué)技術(shù)大學(xué)少年班畢業(yè)生，目前在美國伊利諾伊大學(xué)香檳分校讀博，同時也是谷歌 DeepMind 的實習(xí)生。實習(xí)期間，他與所在團(tuán)隊圍繞大模型智能體在長期使用過程中如何積累和利用經(jīng)驗這一問題，構(gòu)建了名為 Evo-Memory 的評測框架，用于系統(tǒng)性刻畫智能體在測試階段的記憶進(jìn)化行為，即如何在持續(xù)使用過程中，像人腦一樣不斷積累經(jīng)驗，并逐步提升解決問題的能力。

圖 | 魏天心（來源：魏天心）

魏天心讓 Evo-Memory 去挑戰(zhàn)數(shù)學(xué)競賽題目、研究生級別的科學(xué)問題、甚至讓其在虛擬實驗室里完成復(fù)雜的多步驟人物。結(jié)果發(fā)現(xiàn)在某個虛擬任務(wù)中，新型 AI 的步驟從平均 22.6 步減少到了 11.5 步，這說明其學(xué)會了更優(yōu)的路徑和方法。

即使任務(wù)的難度突然變化，或者記憶里混入了一些失敗經(jīng)驗，記憶進(jìn)化之后的 AI 也能保持穩(wěn)定的表現(xiàn) ，因為它會主動整理和優(yōu)化記憶，而不是被雜亂的信息干擾。

（來源：https://arxiv.org/abs/2511.20857）

有了 Evo-Memory：AI 變得會更會搜索，面對新問題的時候 AI 會迅速在記憶里找到類似的情況；AI 也會變得更會思考，不僅會查看舊有答案，還會分析此前在給出舊有答案時是怎么想的以及使用了什么方法；AI 還會變得更會自我優(yōu)化，每當(dāng)解決一個新的問題， AI 就會把這次的經(jīng)驗比如怎么想的、怎么做的、結(jié)果如何等內(nèi)容整理好，整理好之后還會扔掉沒用的、突出有用的。

這個過程叫做測試時進(jìn)化，即每次在被使用以及每次在解決問題的時候， AI 都在實時地自我學(xué)習(xí)和自我進(jìn)化。為了測試這種能力，魏天心設(shè)計了一個名為 Evo-Memory 的基準(zhǔn)測試，把數(shù)學(xué)題、科學(xué)實驗和虛擬世界任務(wù)等十多種不同類型的挑戰(zhàn) ，編成連續(xù)的任務(wù)流，讓 AI 一個一個去完成，結(jié)果發(fā)現(xiàn)它果然可以借助以往經(jīng)驗解決新問題。

【中科大少年班校友搞出“會進(jìn)化”的AI記憶，解題步驟直接砍半】魏天心告訴 DeepTech：“我們此次成果的核心貢獻(xiàn)是系統(tǒng)性地定義、設(shè)計并評估了大模型智能體的測試時學(xué)習(xí)能力。也就是在不改變模型訓(xùn)練參數(shù)的前提下，讓智能體通過自我演化，實現(xiàn)跨任務(wù)、跨時間的持續(xù)改進(jìn) 。 ”

（來源：https://arxiv.org/abs/2511.20857）

過去兩年，大模型和 AI 智能體的能力提升很快，但在實際部署后魏天心發(fā)現(xiàn)它們幾乎不會從經(jīng)驗中學(xué)習(xí) 。大多數(shù)評測默認(rèn)它們是一次性系統(tǒng) ，而在現(xiàn)實中，智能體是長期運行的。

它會不斷遇到新情況、會犯錯、會修正，這才符合真實世界的背景。因此，本次研究不僅關(guān)注它當(dāng)下的能力，更關(guān)注它能否持續(xù)進(jìn)化、持續(xù)從經(jīng)驗中學(xué)習(xí) ，并把這種進(jìn)化變成可控、可衡量的一個系統(tǒng)性過程。

為了讓 AI 學(xué)會進(jìn)化記憶，魏天心構(gòu)建了一個基準(zhǔn)測試框架，對相關(guān)方法進(jìn)行了全面評估，并在其中提出并實現(xiàn)了兩種關(guān)鍵測試方法，用于刻畫智能體在持續(xù)學(xué)習(xí)過程中的記憶進(jìn)化行為：

第一個方法叫做 ExpRAG ，負(fù)責(zé)經(jīng)驗檢索與聚合。其實它是一個錯題本，每當(dāng) AI 遇到新題目的時候，它就會立馬去錯題本里搜搜看，看看是否有類似的舊題目和舊答案。然后，它會把找到的舊有例子和當(dāng)前題目放在一起思考并給出新答案，最后再把這次的新經(jīng)歷記錄到錯題本里。

第二個方法叫做 ReMem ，它能讓 AI 進(jìn)行協(xié)同的推理、行動和記憶，并能給 AI 裝上“三核處理器” 。首先是思考核，專門負(fù)責(zé)分析問題和制定計劃；其次是行動核，專門負(fù)責(zé)執(zhí)行具體的操作或者給出答案；再次是記憶整理核，這是一個全新的部分，它專門負(fù)責(zé)管理經(jīng)驗寶箱，實時地判斷哪些記憶有用、哪些應(yīng)該合并或刪除，讓記憶庫始終保持在最佳狀態(tài) 。

這三個核心協(xié)同工作，讓 AI 在解決問題的同時，不僅可以思考怎么做，還能同步思考自己之前學(xué)的哪些經(jīng)驗?zāi)軌蛴蒙稀⑦@次的新經(jīng)驗應(yīng)該怎么存，真正實現(xiàn)了邊學(xué)邊用和越用越聰明。

（來源：https://arxiv.org/abs/2511.20857）

魏天心補充稱：“研究過程總體順利，但有幾個發(fā)現(xiàn)很有意思。一是如果記憶模塊設(shè)計不當(dāng) ，無法正確從經(jīng)驗中學(xué)習(xí) ，錯誤可能會隨時間積累，導(dǎo)致效果反而變差。二是目前很多方法難以在不同數(shù)據(jù)集上取得穩(wěn)定的提升。

這說明提升空間還很大，而且目前的方法大多只是提出了新的測試流程，尚未觸及更本質(zhì)的層面。未來，我認(rèn)為會有更多工作出現(xiàn) ，進(jìn)行更深入的分析和分離實驗，以獲得更本質(zhì)的結(jié)論。 ”

談及在 DeepMind 的實習(xí)體會，他表示：“首先， DeepMind 最直觀的感受是研究氛圍十分濃厚，同時內(nèi)部交流非常開放。你可以很容易地在內(nèi)部找到在相關(guān)方向有深入研究的研究人員進(jìn)行討論，無論資歷或崗位背景，都可以圍繞具體研究問題直接溝通，使想法能夠被快速反饋和打磨。

此外，公司的整體工作環(huán)境和支持條件包括食堂健身房等都非常好。在實習(xí)過程中，我還進(jìn)一步了解了公司重點關(guān)注的前沿研究方向和核心業(yè)務(wù) ，這對我后續(xù)的研究方向和發(fā)展規(guī)劃產(chǎn)生了積極影響。 ”

一步步走到今天，他也感恩于父母的幫助和支持。他回憶稱：“一方面，父母沒有給我很大壓力，不會因為我某次考試或狀態(tài)的起伏而施加額外壓力。另一方面，對于一些關(guān)鍵機會，比如報考中科大少年班或者參加競賽學(xué)習(xí) ，都是父母建議和鼓勵我去嘗試的。

如果沒有他們的信息搜集和建議，我可能在高二時就不知道還有這樣的渠道，從而錯過機會。所以，父母在信息搜集和長遠(yuǎn)規(guī)劃上的作用非常大。作為學(xué)生，準(zhǔn)備高考和競賽壓力大，很容易忽略這些信息，而父母從旁觀者的角度能更好地幫助梳理。 ”

目前，魏天心在美國伊利諾伊大學(xué)香檳分校讀博士五年級，主要研究方向是大模型與智能體的高效化研究，包括長期推理、自我進(jìn)化以及在推薦系統(tǒng)等領(lǐng)域的應(yīng)用。

參考資料：
相關(guān)論文 https://arxiv.org/abs/2511.20857

運營/排版：何晨龍

中科大少年班校友搞出“會進(jìn)化”的AI記憶，解題步驟直接砍半

推薦閱讀

母親節(jié)送花母親節(jié)送什么花

3Mbps是什么意思 3mbps等于多少kbps

如何還原蘋果系統(tǒng)版本

水滴信用是做什么的

冬天吃什么蔬菜最好

無公害香蔥病蟲草害防治技術(shù)

墨竹圖題詩的意思墨竹圖題詩翻譯

小米打漿發(fā)糕的做法

AI全屋定制智能家居是什么體驗全屋智能ai系統(tǒng)

使用all media fixer修復(fù)視頻文件的方法

上海女子圖鑒劇情介紹

云流水般的意思

土豆燉豆角燉多久

桂木果泡酒要曬干嗎

各種燈的介紹與燈具的性能介紹

山西省長治市黎城溫泉多少錢，山西大汖溫泉度假景區(qū)酒店多少錢