研究員首次全線落敗——AI架構、數據、算法三戰獲科學發現級突破

研究員首次全線落敗——AI架構、數據、算法三戰獲科學發現級突破

文章圖片

研究員首次全線落敗——AI架構、數據、算法三戰獲科學發現級突破

文章圖片

研究員首次全線落敗——AI架構、數據、算法三戰獲科學發現級突破

文章圖片

研究員首次全線落敗——AI架構、數據、算法三戰獲科學發現級突破

文章圖片

研究員首次全線落敗——AI架構、數據、算法三戰獲科學發現級突破

文章圖片

研究員首次全線落敗——AI架構、數據、算法三戰獲科學發現級突破

文章圖片

研究員首次全線落敗——AI架構、數據、算法三戰獲科學發現級突破


「AI的發展 , 已經進入決賽圈 。 決賽圈比拼的 , 是AI自進化的加速度」 —— 項目負責人
DeepMind 德米斯·哈薩比斯曾用一句話定義他畢生的使命:「先解決智能問題 , 然后用它來解決其他一切問題 。 」
這句話背后藏著一個極其深刻的邏輯——智能 , 是打開人類一切重大命題的萬能鑰匙 。 物理、化學、生物……所有領域的突破 , 本質上都在等待同一件事的發生:AI 真正掌握自我進化的能力 。 一旦這道門被打開 , 它所釋放的能量 , 將同時涌入人類知識版圖的每一個角落 。
AI 的每一次進步 , 背后都是人類研究員在架構設計、數據清洗、算法調優上投入的海量人力——這是一條以人力為燃料的線性賽道:效率低下 , 迭代緩慢 , 而我們所期望的是那條指數級躍升的曲線 。
AI 在加速 , 但駕駛它的 , 還是人類的雙手 。 這 , 正是決賽圈真正的瓶頸所在 。 直到今天 , 這個瓶頸 , 第一次被正面擊穿 。

圖:AI自主實現架構、數據、算法三大核心領域的科學發現級突破 , 其光芒向外輻射 , 驅動數學、生物醫學、物理學等整片知識星系 , 邁入全新軌道 。
來自創智學院、上海交通大學劉鵬飛研究團隊(GAIR)發布的「超智能-進化」框架:ASI-Evolve , 已經可以在不依賴人類研究員的前提下 , 獨立完成「發現問題 → 設計方案 → 迭代驗證 → 提煉規律」的完整科研閉環 。
更重要的是 , 這一次并非某個局部領域的小試牛刀——而是在 AI 研發最硬核的三大核心戰場上 , 同時交出了科學發現級別的答卷:
? 神經網絡架構設計——AI 獨立發現超越人類專家的全新架構 。預訓練數據篩選——AI 自主優化數據策略 , MMLU 評測提升超 18 個百分點 。 ?? 強化學習算法設計——AI 設計出全新訓練算法 , 數學競賽題上超越 GRPO 基線達 12.5 分 。三場硬仗 , 三場勝利 。 人類研究員 , 在 AI 自我進化的加速度競賽中 , 首次全線落敗 。 如果說過去大家更多看到的是 AI 幫人類做研究 , 那么 ASI-Evolve 展示的是另一件事:AI 開始加速 AI 。
不僅如此 , 團隊還進一步證明 , AI 優化出的設計可以直接遷移到真實藥物發現任務 , 形成從 AI 研究到科學應用的完整鏈條 。
開源鏈接:https://github.com/GAIR-NLP/ASI-Evolve
技術報告:https://github.com/GAIR-NLP/ASI-Evolve/blob/main/assets/paper.pdf
為什么這件事難?
AI 研究不是「給一個答案」
真實世界里的 AI 研究 , 本質上要同時跨過三重門檻:
執行成本高:一次有效驗證往往要消耗數小時甚至更久的計算資源 , 還伴隨真實工程接入與運行成本 。 搜索空間大:目標開放、邊界不預設 , 系統必須在大規模候選方向中自主找到有價值的探索路徑 。 反饋維度多:結果不是簡單的「對 / 錯」 , 而是多維、間接、甚至彼此沖突的信號 , 必須經過分析才能轉化為下一步行動 。真正困難的 , 不是生成一個點子 , 而是在漫長、昂貴、弱反饋的實驗循環里 , 持續進化自己的研究能力 。 ASI-Evolve 正是為這個問題而設計的 。
三大核心成果:
AI 首次打通 AI 研發閉環
ASI-Evolve 的核心結果 , 不是幾個彼此并列的案例 , 而是一條完整主線:AI 首次在統一框架下 , 打通了 AI 研發的三大核心支柱 。
架構:AI 開始自主做模型架構研究
在神經網絡架構設計任務中 , ASI-Evolve 以 DeltaNet 為起點 , 圍繞高效線性注意力展開長周期自主探索 。 系統累計進行了 1773 輪演化實驗 , 在驗證階段發現了 105 個超過 DeltaNet 的新架構 , 最終最優模型相較 DeltaNet 獲得大幅提升 , 接近當前人類設計 SOTA 增益的 3 倍 。

更重要的是 , 這不是只在單一開發集上「刷出來」的結果 。 在擴展到 1.3B 參數、100B token 的大規模驗證后:
開發集最高達到 57.28% 平均準確率 , 超過 DeltaNet 的 55.76% 。 在 6 個 held-out OOD 任務上也達到 45.40% , 超過 DeltaNet 的 44.74% 。這說明 AI 發現的不是只對榜單有效的技巧 , 而是真正可以泛化的結構性改進 。
數據:AI 開始自主塑造下一代模型要吃什么數據


AI自主處理訓練數據 , 大幅提升模型表現

數據策略不再只是人工規則工程 , 也開始成為 AI 可以持續研究、反復迭代、主動優化的對象 。
算法:AI 不只是調超參 , 而是在發明新的 RL 訓練算法
在強化學習算法設計任務中 , ASI-Evolve 以 GRPO 為強基線 , 直接改寫 advantage 分配與梯度更新機制 。 系統在 300 輪演化中訓練并評估大量候選算法 , 其中 10 個在探索階段超過 GRPO , 最終有 3 個算法進入 14B 規模驗證 。 最終算法在數學與代碼等多類任務上相對 GRPO 取得一致提升:AMC32 上最高 +12.5 分、AIME24 上 +11.67 分、OlympiadBench 上 +5.04 分 , 并在數學、抽象推理、STEM、金融與代碼等更廣泛評測上保持優勢 。

AI自主設計算法
最有代表性的兩個創新方向:
一個方向通過成對比較的 advantage 估計和不對稱 clipping , 顯式建模「好的回答究竟比其他回答好多少」 。 另一個方向引入全局更新預算 , 為每個 token 動態分配可信更新半徑 , 從數學上約束 noisy training 中的策略更新穩定性 。它做的不是參數搜索 , 而是在真正進入算法層面的數學創新 。 這三項結果合在一起 , 說明 AI 已經開始在架構、數據、算法這三大核心研發環節中形成閉環 , 直接參與 AI 自身的進化 。
ASI-Evolve:
完整的 Learn-Design-Experiment-Analyze 閉環


為了解決這些復雜的科研任務 , 框架設計了「學習-設計-實驗-分析」閉環 , 由五個相互配合的角色構成:
研究員:提出新假設、生成候選方案 。 工程師:把方案真正放進實驗環境執行 , 拿到真實結果 。 分析者:閱讀復雜實驗輸出 , 把雜亂日志、指標和現象提煉成可復用的洞察 。 數據庫:積累自身研究經驗 , 形成對于具體任務的專業見解 。 認知池:作為人類知識的圖書館 , 提供高質量的領域信息 。相比于以往的自動化科研工作流 , 改進在于兩方面:一是讓 AI 在實驗中充分吸收人類科研積累 , 站在巨人的肩膀上 , 把盲目、冗余的探索壓到最低;二是真正讀懂并剖析實驗輸出 , 讓每一次實驗都被充分利用 。

橫向對比 , 效率明顯提升
論文中的分析實驗也展示了這一設計的必要性:在數學領域的 circle packing 任務上 , ASI-Evolve 最快只用 17 步就達到 SOTA 級結果 , 明顯快于 OpenEvolve 和 GEPA;而當去除分析者 , 系統進化很快進入平臺期;離開了認知池 , 啟動明顯變慢 。 這更說明了自主科研不是以量取勝的盲目搜索 , 而應該是「知識先驗 + 實驗反思」雙重驅動下的高效演化 。

消融實驗 , 分析和認知缺一不可
從 AI 研究到真實應用:藥物發現的遷移驗證
然而 , AI 優化出的 AI , 在真實應用場景下真的有用嗎?
為回答這個問題 , GAIR 團隊把 ASI-Evolve 演化出的架構遷移到了藥物-靶點相互作用預測任務中 , 用 AI 自動發現的新架構去解決生物醫藥問題 。


ASI-Evolve自主優化模型架構 , 實現跨領域應用提升
相較 DrugBAN 基線 , ASI-Evolve 發現的架構在多個 benchmark 上都實現了穩定提升:
BindingDB 開發集:AUROC 提升 +1.91 , F1 提升 +2.95 。 隨機測試集:AUROC 提升 +1.05 。更重要的是 , 在更困難、也更接近真實應用價值的 cold-start 場景里 , 面對從未見過的新藥或新蛋白時 , 提升更大:
unseen drug 場景:AUROC 最高提升 +6.94 。 unseen protein 場景:AUROC 提升 +3.56 。 雙重泛化(藥物 + 蛋白均未見):AUROC 提升 +4.36 。這說明 AI 自主研究得到的并不是「只對 AI benchmark 有效」的技巧 , 而是具有跨領域遷移價值的真實設計能力 。 AI 優化的 AI , 開始在真實科學應用場景里顯示出實用價值 。
對開源社區與 AI 研究范式的意義
ASI-Evolve 真正值得關注的 , 不只是拿到了幾個更高的分數 , 而是第一次在統一系統中 , 把「AI Accelerates AI」這件事系統性地展開并驗證了出來 。
GAIR 團隊展示的是:AI 已經可以在架構、數據、算法這些 AI 發展的基礎環節上 , 通過系統的自我進化閉環持續推進研究 。 這意味著 , 當 AI 智能快速發展時 , 這種增長不只體現在解題、寫代碼或執行任務上 , 也開始能夠反哺 AI 自身科研 , 加速下一輪發明 , 形成 AI research level 的迭代進化 , 并輻射賦能 Math、Drug 等其他學科 。
未來展望
隨著 AI 持續變強 , 這種自我科研加速不會停留在架構、數據、算法三層 , 而可能進一步擴展到框架優化、推理加速等更完整的 AI 工作流 。
在更宏觀的層面上 , 隨著進化系統承擔越來越多實現、試驗和迭代工作 , 人類可以把更多精力從「執行方案」轉向「定義問題」 , 把最重要的問題設定、研究方向判斷和價值選擇留給人 , 把更大規模的假設空間探索交給 AI 。
【研究員首次全線落敗——AI架構、數據、算法三戰獲科學發現級突破】ASI-Evolve 展示的 , 是 AI 自我科研加速從設想走向系統性驗證的一步 。 當 AI 開始真正參與 AI 的發明過程 , 我們看到的或許不只是效率提升 , 而是 AI 研發范式本身開始發生變化 。

    推薦閱讀