日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

中科大少年班校友搞出“會進(jìn)化”的AI記憶,解題步驟直接砍半

中科大少年班校友搞出“會進(jìn)化”的AI記憶,解題步驟直接砍半

文章圖片

中科大少年班校友搞出“會進(jìn)化”的AI記憶,解題步驟直接砍半

文章圖片


今年 26 歲的魏天心 , 是中國科學(xué)技術(shù)大學(xué)少年班畢業(yè)生 , 目前在美國伊利諾伊大學(xué)香檳分校讀博 , 同時也是谷歌 DeepMind 的實習(xí)生 。 實習(xí)期間 , 他與所在團(tuán)隊圍繞大模型智能體在長期使用過程中如何積累和利用經(jīng)驗這一問題 , 構(gòu)建了名為 Evo-Memory 的評測框架 , 用于系統(tǒng)性刻畫智能體在測試階段的記憶進(jìn)化行為 , 即如何在持續(xù)使用過程中 , 像人腦一樣不斷積累經(jīng)驗 , 并逐步提升解決問題的能力 。


圖 | 魏天心(來源:魏天心)

魏天心讓 Evo-Memory 去挑戰(zhàn)數(shù)學(xué)競賽題目、研究生級別的科學(xué)問題、甚至讓其在虛擬實驗室里完成復(fù)雜的多步驟人物 。 結(jié)果發(fā)現(xiàn)在某個虛擬任務(wù)中 , 新型 AI 的步驟從平均 22.6 步減少到了 11.5 步 , 這說明其學(xué)會了更優(yōu)的路徑和方法 。

即使任務(wù)的難度突然變化 , 或者記憶里混入了一些失敗經(jīng)驗 , 記憶進(jìn)化之后的 AI 也能保持穩(wěn)定的表現(xiàn) , 因為它會主動整理和優(yōu)化記憶 , 而不是被雜亂的信息干擾 。


(來源:https://arxiv.org/abs/2511.20857)

有了 Evo-Memory:AI 變得會更會搜索 , 面對新問題的時候 AI 會迅速在記憶里找到類似的情況;AI 也會變得更會思考 , 不僅會查看舊有答案 , 還會分析此前在給出舊有答案時是怎么想的以及使用了什么方法;AI 還會變得更會自我優(yōu)化 , 每當(dāng)解決一個新的問題 , AI 就會把這次的經(jīng)驗比如怎么想的、怎么做的、結(jié)果如何等內(nèi)容整理好 , 整理好之后還會扔掉沒用的、突出有用的 。

這個過程叫做測試時進(jìn)化 , 即每次在被使用以及每次在解決問題的時候 , AI 都在實時地自我學(xué)習(xí)和自我進(jìn)化 。 為了測試這種能力 , 魏天心設(shè)計了一個名為 Evo-Memory 的基準(zhǔn)測試 , 把數(shù)學(xué)題、科學(xué)實驗和虛擬世界任務(wù)等十多種不同類型的挑戰(zhàn) , 編成連續(xù)的任務(wù)流 , 讓 AI 一個一個去完成 , 結(jié)果發(fā)現(xiàn)它果然可以借助以往經(jīng)驗解決新問題 。

【中科大少年班校友搞出“會進(jìn)化”的AI記憶,解題步驟直接砍半】魏天心告訴 DeepTech:“我們此次成果的核心貢獻(xiàn)是系統(tǒng)性地定義、設(shè)計并評估了大模型智能體的測試時學(xué)習(xí)能力 。 也就是在不改變模型訓(xùn)練參數(shù)的前提下 , 讓智能體通過自我演化 , 實現(xiàn)跨任務(wù)、跨時間的持續(xù)改進(jìn) 。 ”


(來源:https://arxiv.org/abs/2511.20857)

過去兩年 , 大模型和 AI 智能體的能力提升很快 , 但在實際部署后魏天心發(fā)現(xiàn)它們幾乎不會從經(jīng)驗中學(xué)習(xí) 。 大多數(shù)評測默認(rèn)它們是一次性系統(tǒng) , 而在現(xiàn)實中 , 智能體是長期運行的 。

它會不斷遇到新情況、會犯錯、會修正 , 這才符合真實世界的背景 。 因此 , 本次研究不僅關(guān)注它當(dāng)下的能力 , 更關(guān)注它能否持續(xù)進(jìn)化、持續(xù)從經(jīng)驗中學(xué)習(xí) , 并把這種進(jìn)化變成可控、可衡量的一個系統(tǒng)性過程 。

為了讓 AI 學(xué)會進(jìn)化記憶 , 魏天心構(gòu)建了一個基準(zhǔn)測試框架 , 對相關(guān)方法進(jìn)行了全面評估 , 并在其中提出并實現(xiàn)了兩種關(guān)鍵測試方法 , 用于刻畫智能體在持續(xù)學(xué)習(xí)過程中的記憶進(jìn)化行為:

第一個方法叫做 ExpRAG , 負(fù)責(zé)經(jīng)驗檢索與聚合 。 其實它是一個錯題本 , 每當(dāng) AI 遇到新題目的時候 , 它就會立馬去錯題本里搜搜看 , 看看是否有類似的舊題目和舊答案 。 然后 , 它會把找到的舊有例子和當(dāng)前題目放在一起思考并給出新答案 , 最后再把這次的新經(jīng)歷記錄到錯題本里 。

第二個方法叫做 ReMem , 它能讓 AI 進(jìn)行協(xié)同的推理、行動和記憶 , 并能給 AI 裝上“三核處理器” 。 首先是思考核 , 專門負(fù)責(zé)分析問題和制定計劃;其次是行動核 , 專門負(fù)責(zé)執(zhí)行具體的操作或者給出答案;再次是記憶整理核 , 這是一個全新的部分 , 它專門負(fù)責(zé)管理經(jīng)驗寶箱 , 實時地判斷哪些記憶有用、哪些應(yīng)該合并或刪除 , 讓記憶庫始終保持在最佳狀態(tài) 。

這三個核心協(xié)同工作 , 讓 AI 在解決問題的同時 , 不僅可以思考怎么做 , 還能同步思考自己之前學(xué)的哪些經(jīng)驗?zāi)軌蛴蒙稀⑦@次的新經(jīng)驗應(yīng)該怎么存 , 真正實現(xiàn)了邊學(xué)邊用和越用越聰明 。


(來源:https://arxiv.org/abs/2511.20857)

魏天心補充稱:“研究過程總體順利 , 但有幾個發(fā)現(xiàn)很有意思 。 一是如果記憶模塊設(shè)計不當(dāng) , 無法正確從經(jīng)驗中學(xué)習(xí) , 錯誤可能會隨時間積累 , 導(dǎo)致效果反而變差 。 二是目前很多方法難以在不同數(shù)據(jù)集上取得穩(wěn)定的提升 。

這說明提升空間還很大 , 而且目前的方法大多只是提出了新的測試流程 , 尚未觸及更本質(zhì)的層面 。 未來 , 我認(rèn)為會有更多工作出現(xiàn) , 進(jìn)行更深入的分析和分離實驗 , 以獲得更本質(zhì)的結(jié)論 。 ”

談及在 DeepMind 的實習(xí)體會 , 他表示:“首先 , DeepMind 最直觀的感受是研究氛圍十分濃厚 , 同時內(nèi)部交流非常開放 。 你可以很容易地在內(nèi)部找到在相關(guān)方向有深入研究的研究人員進(jìn)行討論 , 無論資歷或崗位背景 , 都可以圍繞具體研究問題直接溝通 , 使想法能夠被快速反饋和打磨 。

此外 , 公司的整體工作環(huán)境和支持條件包括食堂健身房等都非常好 。 在實習(xí)過程中 , 我還進(jìn)一步了解了公司重點關(guān)注的前沿研究方向和核心業(yè)務(wù) , 這對我后續(xù)的研究方向和發(fā)展規(guī)劃產(chǎn)生了積極影響 。 ”

一步步走到今天 , 他也感恩于父母的幫助和支持 。 他回憶稱:“一方面 , 父母沒有給我很大壓力 , 不會因為我某次考試或狀態(tài)的起伏而施加額外壓力 。 另一方面 , 對于一些關(guān)鍵機會 , 比如報考中科大少年班或者參加競賽學(xué)習(xí) , 都是父母建議和鼓勵我去嘗試的 。

如果沒有他們的信息搜集和建議 , 我可能在高二時就不知道還有這樣的渠道 , 從而錯過機會 。 所以 , 父母在信息搜集和長遠(yuǎn)規(guī)劃上的作用非常大 。 作為學(xué)生 , 準(zhǔn)備高考和競賽壓力大 , 很容易忽略這些信息 , 而父母從旁觀者的角度能更好地幫助梳理 。 ”

目前 , 魏天心在美國伊利諾伊大學(xué)香檳分校讀博士五年級 , 主要研究方向是大模型與智能體的高效化研究 , 包括長期推理、自我進(jìn)化以及在推薦系統(tǒng)等領(lǐng)域的應(yīng)用 。

參考資料:
相關(guān)論文 https://arxiv.org/abs/2511.20857

運營/排版:何晨龍

    推薦閱讀