頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

文章圖片

頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

文章圖片

頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

文章圖片

頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

文章圖片

頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

文章圖片

【頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代】頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

文章圖片

頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

文章圖片

頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

文章圖片

頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

文章圖片

頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

文章圖片

頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

文章圖片

頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代

文章圖片

頂尖模型離“科學家”還差得遠?AI4S亟待邁向2.0時代


機器之心發布

當前 , 科學智能(AI for Science)被稱之為人工智能的 “皇冠” , 以 AlphaFold 為代表的 AI for Science(AI4S)技術在蛋白質折疊、氣象預測等特定領域取得了里程碑式成就 , 但近期《Nature》發表的研究指出 , 過度依賴現有深度學習模型可能局限新知識的探索邊界 , 甚至在某種程度上阻礙創新 。

一項來自上海人工智能實驗室(上海 AI Lab)的系統性評估①進一步揭示了當前前沿模型的短板 。 來自 10 個不同科學領域的 100 位科學家為模型構建了評測題目 , 結果顯示:前沿模型在通用科學推理任務中得分可達 50 分(滿分 100) , 但在各類專業推理任務(如專項文獻檢索、具體實驗方案設計)中 , 得分驟降至 15-30 分 。

“我們已身處 “通用人工智能”(AGI)前夕 , 但仍面臨重要環節的缺失 —— 通專融合的智能 。 我們亟需推動科學智能從 1.0 向 2.0 迭代 , 即從 AI4S 邁向 AGI4S 。 ” 日前 , 上海人工智能實驗室主任、首席科學家周伯文在第四十屆人工智能協會年會(AAAI 2026)發表特邀報告時提出 , 科學發現是 AI 的下一個前沿陣地 —— 它既是推理智能的終極試煉場 , 也是 “通專融合 AGI” 的驗證舞臺 。 若 AGI = 通專融合(Specialized Generalist) , 則可深度專業化通用模型(Specializable Generalist)是實現 AGI 的可行路徑 。

除了分享前沿觀點 , 周伯文還詳細介紹了上海 AI 實驗室近年來開展的前沿探索與實踐 , 包括驅動 “通專融合” 發展的技術架構 ——“智者”SAGE(Synergistic Architecture for Generalizable Experts) , 其包含基礎、融合與進化三個層次 , 并可雙向循環實現全棧進化;支撐 AGI4S 探索的兩大基礎設施“書生”科學多模態大模型 Intern-S1、“書生”科學發現平臺 Intern-Discovery 及一系列相關階段性進展 。

演講最后 , 周伯文向會場內外的觀眾發出行動召喚:架構已經就緒 , 但畫卷仍存大片留白 , 期待與更多同行者共拓藍圖!

以下為報告全文 , 略有修訂 。



演進預判:從 ANI 到 AGI 的歷史跨越

人工智能的發展歷程并非線性堆疊 , 而是呈現出明顯的階段性躍遷 。 回顧 AI 發展的歷史坐標 , 有助于我們厘清當前所處的位置及未來的方向 。

早在 1996 年涉足 AI 研究之初 , 我便開始思考智能的本質 。 特別是在擔任 IBM 人工智能基礎研究院院長期間 , 首次提出了通往通用人工智能(AGI)的戰略路線圖 , 明確界定了 AI 發展的三個關鍵階段:ANI(狹義人工智能)、ABI(廣義人工智能)與 AGI , 并給出了各自明確定義 。

我當時的判斷是 ANI 在 2016 年已趨于成熟 , 而通往 AGI 的必經之路并非直接躍遷 , 而是必須率先實現具備跨領域泛化能力的 ABI 。 我們認為這一跨越需要技術范式的根本性變革 , 最少包括三個方面:即從有監督學習轉向自監督學習 , 從人類分割任務級聯式系統轉向端到端架構 , 從判別式工具進化為生成式助手 。

六年多后 ChatGPT 的問世 , 第一次驗證了人工智能系統在以上三方面的同時達成 , 實質上宣告了 ABI 階段的到來 。 這一歷史性突破驗證了規模法則(Scaling Law)的有效性 —— 即通過擴大 Transformer 架構并將 “下一個詞預測” 作為優化目標 , 人類首次實現了對世界知識的壓縮 。 值得一提的是 , 我和團隊早在 2016 年提出的關于 “多頭自注意力” 機制的研究 , 作為 “與下游任務無關”(也就是 “預訓練”)的自然語言長上下文壓縮表征的首批成果之一 , 被開創性的 Transformer 論文引用與認可② , 為這一預訓練時代的壓縮智能奠定了重要的理論基石 。




重訪路線圖(2016 年):通往 AGI 之路

戰略路徑:通專融合與科學發現的終極試煉

隨著 Scaling Law 賦予了大語言模型廣泛的泛化能力(ABI) , 在 2023 年初我們提出了一個關鍵的戰略設問:通往 AGI 的下一步 , 僅僅是計算量的堆疊嗎?對這些設問的思考促使我在 2023 年提出了 “通專融合” 路徑 。 核心思想是如何動態實行融合人類認知思維的系統 1 和系統 2 , 以應對各種現實世界的任務 。

重新定義 AGI 之路

過去 70 年 AI 的發展長期在 “專業性” 與 “通用性” 兩個維度上分別進展 。 以 AlphaFold 為代表的早期系統是極致的 “專家” , 在特定領域超越人類卻缺乏遷移能力;而當前的大語言模型則是博聞廣識的 “通才” , 雖具廣度但在處理復雜專業任務時往往難以企及專家深度和缺失關鍵細節 。 真正的 AGI 必須打破這種二元對立 , 構建一種能夠動態融合 “系統 1”(直覺式快思考)與 “系統 2”(邏輯式慢思考)的智能架構 —— 即在保持通用認知基座的同時 , 能夠在任意特定任務上通過持續學習與深度推理實現專家級的專精(闡述這一思路系統的立場論文已于 2024 年在 ArXiv 上發表)③ 。



2024 年末 OpenAI o1 與 2025 年初 DeepSeek-R1 的出現 , 通過在大模型之上應用強化學習顯著提升邏輯推理能力 , 有力地驗證了關于 “通專融合” 路徑預判的正確性 。 2025 年 10 月 , 約書亞?本吉奧教授等人提出了 AGI 的定義 , 將其分解為十種核心通用能力以及眾多狹義的專業能力 。 若能全面達成這些能力 , 即意味著實現了 AGI 。 這一定義與我們 “通專融合是通往 AGI 的戰略路徑” 的觀點高度吻合 —— 這表明該路徑正日益成為整個學術社區的普遍共識 。

科學發現:推理智能的終極前沿

下一個前沿領域是什么?我認為是科學發現(Scientific Discovery SD) 。 在我看來 , 除了科學智能(AI for Science AI4S)所承諾的治愈癌癥等諸多益處之外 , 科學發現更是推理智能的終極考驗 , 因此也是 AI 探索的絕對前沿 。 科學發現是已知與未知之間復雜的相互作用 , 涵蓋了從假設生成、實驗驗證到理論總結的全過程 。 其對 AI 提出了三重極限挑戰:

已知的未知:典型的如組合爆炸 , 比如分子設計或材料科學的搜索空間高達 10^60 量級 , 遠超傳統遍歷能力; 未知的未知:科學探索本質上是對分布外(OOD)知識的泛化 , 是對模型創造力的真正考驗; 稀疏與延遲獎勵:科學實驗的周期長、反饋慢 , 是對強化學習算法的嚴峻測試④ 。
因此 , 科學發現不僅是 AI 的最佳應用場景 , 更是驅動 “通專融合” 邁向 AGI 的根本動力 。

接下來 , 我想分享我們為應對這一挑戰提出的技術架構 ——“智者”SAGE 。

技術架構:遞歸循環的通用專家協同架構“智者”SAGE

為將 “通專融合” 戰略轉化為可落地的技術方案 , 上海 AI 實驗室在 2024 年提出了“智者”SAGE 架構 —— 其并非若干模型的簡單堆砌 , 而是一個旨在彌合廣泛泛化與深度專精鴻溝的統一認知生態系統⑤ 。 該架構由三個邏輯耦合的層次構成:

底部的基礎模型層致力于結構上的重構 , 通過將知識儲備與推理能力解耦 , 為高階因果推理提供更靈活的 “畫布”; 中間的融合協同層通過密集過程獎勵機制 , 動態協調直覺式 “快思考” 與邏輯性 “慢思考” , 精準把控泛化與專精的節奏; 頂層的探索進化層則賦予 AI 主動能動性 , 完成從被動數據擬合到主動環境探索的范式轉變 。
至關重要的是 , SAGE 絕非靜態的架構 , 而是一個遞歸運行的活體生態 。 它通過雙向循環實現全棧進化:一方面 , 底層解耦的表征自下而上地支撐推理策略的生成;另一方面 , 頂層主動發現獲得的高水平反饋自上而下回流 , 將探索中的 “未知” 轉化為新的訓練信號 。 這種閉環機制確保了 SAGE 不僅能實現模型參數的優化 , 更能推動認知策略本身的持續進化 。


遞歸循環的通專融合技術架構“智者”(SAGE)

基礎模型層:知識與推理的解構與動態耦合

SAGE 的底層致力于解決現有 LLM 將 “事實記憶” 與 “邏輯推理” 混淆的問題 。 以記憶解碼器(Memory Decoder)⑥為例 , 它針對性地解決了現有大模型架構的兩大頑疾:一是檢索增強生成(RAG)在長文本語境推理中存在的顯著延遲與高昂工程成本;二是領域自適應全參數微調所帶來的算力消耗及災難性遺忘風險 。

作為一種預訓練、即插即用的獨立組件 , 記憶解碼器創新性地采用與基礎模型并行運行并融合輸出分布的機制 。 它首次用緊湊的參數化模型替代了傳統非參數檢索器 , 在無需修改基礎模型參數、無在線檢索開銷的前提下 , 實現了高效的知識注入 。 實驗數據顯示 , 其推理開銷僅為基礎模型的 1.28 倍 , 顯著低于現有主流方案 。 這一設計成功填補了 “高密度知識供給” 與 “推理引擎解耦” 之間的技術鴻溝 , 在 SAGE 框架中實現了推理能力與長期記憶的 “解耦但可集成的推理與知識” , 同時強化了 “長期記憶” 能力 。






記憶解碼器:面向大語言模型的預訓練、即插即用記憶體

強化學習:連接基礎層與進化層的紐帶

強化學習(RL)是連接 SAGE 基礎層與融合層、進化層的紐帶 , 也是實現 “通專融合” 的核心動力之一 。 回顧其演進歷程 , RL 經歷了從早期封閉環境下的博弈(如 AlphaGo) , 演進至通過 RLHF 實現人類偏好對齊 , 目前正處于以 o1 和 DeepSeek-R1 為代表的可驗證推理(RLVR)階段 , 并終將邁向面向物理世界與科學發現的開放式體驗學習新紀元 。




適用于可通專融合的強化學習及其三大支柱

在微觀機制上 , RL 被歸納為三大支柱:獎勵設計作為 “指南針” , 通過稀疏或密集信號界定模型專精的目標;策略優化作為 “引擎” , 涵蓋從 PPO 到 GRPO 的算法迭代 , 驅動模型高效更新;采樣與探索則決定了模型在龐大搜索空間中的導航路徑⑦ 。
鑒于不同任務對 RL 配置的需求各異 , 構建系統的核心技術挑戰在于統一:我們如何將多樣性的最佳的獎勵機制、策略優化與采樣探索整合為一個協調一致的系統 , 從而打造出真正的 “可深度專業化通用模型”?

融合協同層:強化學習驅動的深度推理進化

在 SAGE 架構中 , 融合協同層承載著協調 “直覺快思考” 與 “邏輯慢思考” 的核心職能 , 而強化學習(RL)則是實現這一動態協同的關鍵橋梁 。 為了構建一個真正的 “可深度專業化通用模型” , 必須克服傳統 RL 在復雜推理任務中面臨的三大核心挑戰:高昂的監督成本、訓練過程中的熵坍縮以及單一路徑的模式崩潰 。 為此 , 我們在該層引入了三項具有范式意義的算法創新 , 旨在構建密集的獎勵機制、維持持續的探索能力以及激發推理路徑的多樣性 。

隱式獎勵強化學習算法(PRIME):突破高密度監督的成本悖論

高度專家化的模型與人類專家在學習機制上具有相似性:專家化模型在訓練過程中需要更密集的反饋信息 。 對于 “通專融合” 大模型而言 , 要解決科學發現中的長鏈條推理問題 , 僅依賴最終結果的稀疏獎勵往往捉襟見肘 , 模型急需密集的逐步監督信號 。 然而 , 傳統的解決方案依賴于過程獎勵模型(PRM) , 這要求對海量推理步驟進行人工細粒度標注 , 其成本之高昂 , 使得規?;瘮U展幾乎成為不可能 。

針對這一 “高密度監督需求” 與 “高昂標注成本” 之間的矛盾 , 我們提出了 PRIME 算法⑧, 旨在從理論層面推導并獲取 “免費” 的過程獎勵 。 其核心洞察在于 , 利用策略模型與參考模型之間的統計差異 。 通過將模型訓練目標設定為基于兩者對數似然比的結果獎勵模型 , 我們從數學方面證明 , 該模型能夠隱式地習得 Q 函數 。 這意味著 , 智能體在無需顯式訓練龐大的 PRM 模型的情況下 , 即可在推理的每一個步驟中 , 通過計算動作在當前狀態下的優劣 , 直接推導出密集的、逐步的獎勵信號 。




隱式獎勵強化學習算法(PRIME)

這一創新帶來了多維度的顯著優勢:

計算效率的飛躍:與 Math-Shepherd 等依賴獨立 PRM 模型的方法相比 , PRIME 在推理階段無需額外的模型調用開銷 , 直接利用生成模型本身的概率分布即可獲得反饋 , 極大地提升了計算效率; 系統架構的可擴展性:在 SAGE 的系統實現中 , PRIME 方案展現出極強的工程韌性 。 我們將策略模型與隱式 PRM 進行聯動 , 依托結果驗證器和前序步驟產出的自由過程獎勵 , 構建了高效的在線更新閉環; 極致的數據效率:實驗表明 , PRIME 方案僅需 SOTA 模型 1/10 的訓練數據量 , 即可達到相當的性能水平 , 極大地降低了對高質量標注數據的依賴 。
基準測試結果有力地驗證了 PRIME 的有效性:在 AIME 2024 數據集上 , 模型準確率提升了 23.4%;在 AMC 數據集上提升了 27.7%;在 MATH-500 等權威測試中也取得了顯著增長 。 這一系列數據充分證明 , 通過隱式機制構建的稠密獎勵 , 能夠有效驅動模型突破復雜推理的瓶頸 。

強化學習的熵機制:避免 “過度自信” 導致探索止步

專家化模型的訓練不僅需要反饋 , 更需要持續不斷的學習 。 在深入研究用于推理的強化學習時 , 我們揭示了一個阻礙模型進化的根本性障礙 —— 熵坍縮 。 通俗地講 , 這等同于解決如何讓通用模型在專家化的過程中 , 始終保持探索與好奇心 , 讓模型和頂級人類專家一樣在專業問題的挑戰上避免過早過分自信 , 而是 “stay hungry stay foolish”(求知若饑 , 虛心若愚) 。

在訓練過程中 , 隨著模型性能的初步提升 , 策略熵往往會急劇下降 。 這種下降意味著模型對其輸出的置信度快速提高 , 導致其過早地收斂于局部最優解 , 從而喪失了探索更優推理路徑的可能性 。 實驗數據顯示 , 熵的消耗主要集中在訓練的前數百步 , 此后模型的性能提升便迅速進入邊際效益遞減階段 。 這種現象極似人類認知中的 “過度自信” , 即因自滿而停止了對問題細微差異的主動探索 —— 而這種主動探索 , 恰恰是通用模型進化為能捕捉深層規律的 “專精模型” 的關鍵所在 。

為了解決這一問題 , 我們深入探究了熵與獎勵之間的權衡機制 , 并發現了一個關鍵的定量關系:驗證性能(R)與熵(H)呈現顯著的對數線性相關⑨ 。 這一簡潔而深刻的結論為訓練方案的優化指明了方向:構建可擴展推理 RL 框架的難點 , 不在于單純堆砌訓練時長 , 而在于對熵消耗的精細化管理 , 確保模型在訓練全周期內保留足夠的不確定性 , 以驅動持續的探索 。

我們提出了一種精準化、局部化且輕量化的熵控制方案:針對這類標記開展選擇性調控(如采用 Clip-Cov、KL-Cov 等方法) , 能夠達成局部、輕量的熵控制效果 , 既保障模型探索性不受損 , 又不會干擾正常優化流程 。 該方法實現了對熵的局部控制 , 既保障了模型的探索性不受損 , 又避免了對正常優化流程的干擾 。 應用該策略后 , 模型在保持高探索能力的同時 , 顯著提升了下游任務的準確率 。 這一方法已被實驗室的“書生”科學多模態大模型 Intern-S1 等多個頭部機構采納應用 , 其相關成果更由斯坦福 Yejin Choi 教授在 2025 年神經信息處理系統大會(NeurIPS)上進行了重點闡述 。




強化學習的熵機制

匹配大語言模型推理的獎勵分布(FlowRL):實現專家化模型能力多元化

真正的專家不僅能解決問題 , 更能能為同一個問題提供多種解決方案 , 專家化模型亦是如此 。 然而 , 現有的標準強化學習方法(如 PPO、GRPO)普遍以 “獎勵最大化” 為單一目標 。 這種導向在復雜推理任務中極易導致模式崩潰 , 即模型傾向于反復收斂至單一的、已知的成功路徑 , 而忽略了其他潛在的更優解或多樣化解法 。

傳統 RL 方法生成的分布與目標分布之間的 KL 散度高達 8.68 , 表現為極端的尖峰 , 意味著模型探索空間的極度狹窄 。 為了賦予模型真正的專家級思維多樣性 , 我們在融合層引入了 FlowRL⑩ , 這是一項借鑒生成流網絡(GFlowNets)思想的創新工作 , 標志著強化學習優化邏輯的范式轉變 。

FlowRL 的核心在于將學習目標從 “獎勵最大化” 重構為 “分布匹配” 。 模型不再僅僅追逐單一的高分答案 , 而是致力于學習所有有效推理路徑的概率分布 。

分布擬合:FlowRL 生成的分布能夠捕捉目標分布中的絕大多數概率質量 , 擬合多個模態 。 如左側平滑曲線所示 , 其 KL 散度大幅降低至 0.11 , 顯著優于傳統方法; 多樣性生成:習得的策略在推理過程中能夠自然地促進更多樣化路徑的生成 , 從而在面對 “未知的未知” 時具備更強的魯棒性 。
案例顯示 , 在處理同一道數學推理題時 , GRPO 模型陷入了思維死循環 , 推理過程重復且最終未能求解;而 FlowRL 模型則成功探索了多樣化的推理路徑 , 最終得出了正確答案 721 。

整體實驗結果進一步證實了 FlowRL 的優越性:

準確率提升:在 32B 模型的訓練條件下 , FlowRL 在數學推理任務中取得了 48.39% 的準確率 , 較 GRPO 提升 10 個百分點 , 較 PPO 提升 5.1 個百分點; 競賽級表現:基于純開源數據訓練后 , FlowRL 在 CodeForces 平臺的評級達到 1549 分 , 性能直逼 o1-preview 水平; 多樣性倍增:FlowRL 生成的解決方案多樣性評分高達 2.28 , 約為 PPO 的 2 倍 。



匹配大語言模型推理的獎勵分布(FlowRL)

探索進化層:從被動擬合到主動認知探索

SAGE 架構的頂層探索進化層承載著通往 AGI 最關鍵的愿景 —— 打造一個具備自演化能力的 “可深度專業化通用模型” 。 這一層的核心挑戰在于 , 如何讓通用模型不僅在單一任務上實現深度專精 , 更能在大規模任務集乃至復雜的物理世界中 , 通過持續的交互與反饋實現自我迭代 。 為了應對這一挑戰 , 我們從信號(Signal)、規模(Scale)與落地(Ground)三個關鍵維度出發 , 構建了一套完整的進化機制 。

信號維度:測試時強化學習(TTRL)與自我進化

在推理測試階段 , 模型面臨的最大困境在于訓練數據與測試數據之間的分布偏移 。 一旦失去真實標簽的引導 , 傳統模型便停止了學習步伐 。 然而 , 真正的 “專家”—— 如同人類物種一樣 —— 應當具備在任何未知境況下持續學習適應的能力 。

針對這一痛點 , 我們提出了測試時強化學習(Test-Time Reinforcement Learning TTRL)框架?, 其核心洞察建立在一個簡潔的假設之上:共識即意味著正確性(Consensus implies correctness) 。

具體而言 , TTRL 在推理過程中對多個候選解決方案進行采樣 , 并將多數投票的結果作為 “代理獎勵” , 進而利用測試數據流直接對模型參數進行在線更新 。 這一方法在技術實現上具備極致的輕量化特性 , 僅需不到 20 行代碼 , 即可將任何推理軌跡轉化為有效的訓練信號 , 實現了模型在無監督環境下的 “自我舉證” 與 “自我增強” 。


測試時強化學習與自我進化(TTRL)

實測數據驗證了 TTRL 的驚人潛力:

性能躍升:在 AIME 2024 數據集上 , 搭載 TTRL 的 Qwen-2.5-Math-7B 模型準確率實現了 159% 的相對提升; 自我超越:TTRL 優化后的模型展現出了 “青出于藍” 的特性 , 其性能不僅超越了自身的 “最優 N 采樣” 基準線 , 甚至逼近了使用帶真實標簽訓練的理論上限(Oracle 基線); 強泛化性:在 AMC、MATH-500 等未見過的權威基準測試中 , 模型同樣表現出強勁的泛化能力 。
TTRL 的成功證明了智能體具備自主螺旋式上升的成長潛力 , 為 SAGE 架構中的自我進化提供了一條簡潔高效的路徑 。

規模維度:InternBootcamp 與任務擴展定律

在解決了 “怎么學” 的信號問題后 , 必須回答 “在哪學” 的規模問題 。 通專融合模型不僅需要在單一任務上通過 “慢思考” 實現專精 , 更需要在成百上千個任務上同時實現能力適配 。 此外 , 我們還希望探索一個更深刻的問題:當測試任務的數量與多樣性同步擴增時 , 是否存在專門針對在測試環境下、針對任務數量的 Scaling Law?

為此 , 我們研發了大規模、標準化、可擴展的交互驗證環境 ——InternBootcamp ? 。

作為首個覆蓋 8 大任務類別、超 1000 種多樣化環境的平臺 , InternBootcamp 支持在指定環境中開展大規模強化學習訓練 。 其獨特的 “任務與驗證函數自動生成” 能力 , 使得用戶能夠便捷地將電路設計等專業領域任務轉化為可驗證環境 , 通過仿真手段完成結果核驗 。


InternBootcamp 覆蓋 8 大任務類別、超 1000 種多樣化任務環境

基于 InternBootcamp 的實驗揭示了兩個重要現象:

能力的 “涌現”:在 BootcampEVAL 評測集中 , Qwen2.5-32B 模型的平均性能實現了翻倍式增長(從 24.4 提升至 59.5) 。 更為關鍵的是 , 部分在單任務訓練下無法解決的邏輯任務 , 在經過 500 余項混合任務訓練后變得可解 。 這證實了任務間的隱性關聯能夠有效增強模型的綜合理解能力 。 任務擴展定律:實驗數據顯示 , 當任務類型數量從 8 種擴展至 512 種時 , 模型性能呈現持續上升趨勢 。 這一結果證實了與任務數量增長相關的規?;烧鎸嵈嬖?, 為未來大規模訓練提供了理論依據 。
落地維度:SimpleVLA-RL 與具身智能演進

進化的終局 , 是回歸物理世界 。 當前具身智能面臨的核心瓶頸是數據匱乏:機器人演示數據獲取成本極高 , 且單純擴大監督微調(SFT)規模面臨邊際效益遞減 。 我們認為 , 強化學習(RL)憑借其突破演示數據局限的探索能力 , 結合簡單的二元獎勵(成功 / 失敗) , 足以成為解決這一問題的鑰匙 。

基于此 , 我們提出了極端數據稀缺情況下的在線強化學習框架 ——SimpleVLA-RL ? 。 該框架基于視覺 - 語言 - 動作(VLA)模型 , 結合 GRPO 優化目標 , 并通過并行多環境渲染技術支持交互式軌跡采樣 。


極端數據稀缺情況下的在線強化學習框架 SimpleVLA-RL

實驗結果顛覆了對數據效率的傳統認知:

超高數據效率:僅需 “單軌跡” 監督微調結合 RL , 即可實現 96.9% 的成功率 , 性能反而超越了全軌跡監督微調; 策略涌現:機器人通過 RL 自主探索出了從未被演示過的全新推控策略 , 展現出強大的適應性; Sim-to-Real 突破:在疊碗等典型操作任務中 , 仿真到現實的遷移成功率提升了 21%; 長時程任務能力:在近期落地中 , 該方案在長時程靈巧操作任務上 , 實現了相對性能提升 300% , 并展現出令人驚喜的自主恢復能力 。
得益于 SimpleVLA-RL , 我們僅用極少的數據與計算資源 , 便取得了可與 Physical Intelligence 團隊 π*0.6 模型比肩的性能表現 。 這一成果標志著 SAGE 架構徹底打通了負責推理決策的 “大腦” 與負責執行動作的 “軀體” , 真正實現了智能體在物理世界中的 “具身化” 演進 。

經過近兩年的扎實探索 , SAGE 架構已跨越理論構想階段 , 完成了全棧驗證 。 在基礎層 , MemoryDecoder 實現了記憶與計算的結構性解耦;在融合層 , PRIME 與 FlowRL 攻克了監督稀缺與推理單一性的難題;在進化層 , TTRL、InternBootcamp 與 SimpleVLA-RL 構建了從測試時強化到 “具身化” 演進的閉環 。

范式革命:從 AI4S 到 AGI4S

盡管以 AlphaFold 為代表的 AI for Science(AI4S)技術在蛋白質折疊、氣象預測等特定領域取得了里程碑式成就 , 但近期《Nature》發表的研究指出 , 過度依賴現有深度學習模型可能局限新知識的探索邊界 , 甚至在某種程度上阻礙創新 。 這印證了我們的核心觀點:擅長處理數據充足、定義明確任務的傳統深度學習 , 若僅作為工具存在 , 難以應對科學發現中 “未知的未知” 。

系統性的評估進一步揭示了當前前沿模型的短板 。 我們聯合來自 10 個不同科學領域的 100 位科學家設計了評估體系 , 結果顯示:前沿模型在通用科學推理任務中得分可達 50 分(滿分 100) , 但在各類專業推理任務(如專項文獻檢索、具體實驗方案設計)中 , 得分驟降至 15-30 分 。

這種明顯的 “木桶效應” 表明 , 科學發現全周期的效能正受制于專業推理能力的最薄弱環節 。 因此 , 整合通用推理與專業能力 , 進而推動科學智能從 AI4S 向 AGI4S 迭代成為必然選擇 。


研究表明 , 當前所有前沿模型的科學能力均顯不足

從 AI4S 邁向 AGI4S , 這一升級旨在推動研究者、研究工具與研究對象的協同演進 。 通過 AGI 促進三者相互作用、協同演進、螺旋式上升 , 將創造出真正 “革命的工具” , 推動科研范式變革? 。


從 AI4S 1.0 到 AI4S 2.0(AGI4S)

Intern-S1:面向科學的可深度專業化通用模型

為打破上述瓶頸 , 我們研發了 “書生” 科學多模態大模型(Intern-S1)? 。 作為 SAGE 架構在科學領域的集中體現 , Intern-S1 旨在構建一個既具備強大通用能力 , 又能理解復雜科學數據的 “可深度專業化通才” 。 其在三個層面進行了深度創新:

基礎層(數據適配):針對科學數據的多模態異構性 , 提出了科學專用架構 。 采用動態分詞器與專用編碼器 , 原生支持 DNA 序列、蛋白質結構、時間序列等 10 余種模態 。 相較于 GPT-OSS 等通用模型 , 其在科學數據上的壓縮率提升了 1.7 倍 , 并基于 2.5 萬億高質量科學 Token 進行了預訓練 。 融合層(混合獎勵):構建了混合獎勵框架(MoR) , 將多種強化學習算法與熵機制整合 。 該框架平衡了計算、推理、實驗設計等不同技能所需的獎勵信號 , 有效緩解了特定任務過擬合問題 , 增強了模型在跨領域復雜推理中的泛化能力 。 進化層(交互專精):依托 InternBootCamp 框架 , 模型在超 1000 項專業任務(如逆合成分析)中與模擬器進行交互學習 , 實現了大規模的任務專精 。
測評結果顯示 , Intern-S1 在通用能力上對齊 SOTA 開源模型 , 而在涵蓋化學、生物、材料等 9 大領域的科學性能上 , 全面超越了包括 GPT-5 和 Grok-4 在內的頂尖閉源模型 。

Intern-Discovery:全流程科學智能體系統

如果說 Intern-S1 是科學大腦 , 那么 Intern-Discovery 則是具備行動力的科學智能體 。 該平臺構建了一個將 Intern-S1 與海量數據、2000 + 專業工具及濕實驗室驗證環境深度融合的智能體系統 , 實現了從假設生成到實驗驗證的閉環 。

Intern-Discovery 的核心邏輯在于建立 “智能體生成” 與 “智能體驗證” 的雙向循環:前者主動洞察現象、提出假設并設計實驗;后者通過仿真與物理實驗驗證假設 , 并將反饋回傳以修正認知 。

為支撐這一復雜流程 , 系統引入了兩大關鍵支柱:

科學智能上下文協議(SCP)?:針對現有 MCP 協議在科學資源整合上的不足 , SCP 定義了領域特定的結構與協調機制 , 實現了對數據集、濕實驗室設備及復雜工作流的標準化調度與全生命周期管理 。 分層記憶模塊:通過策略程序記憶(SPM)、任務情景記憶(TEM)與語義知識記憶(SKM)的協同 , 系統能夠沉淀高階研究模式、記錄實驗細節并整合長期知識 , 從而在持續迭代中避免邏輯幻覺 。
案例實證:重塑科學發現流程

Intern-Discovery 已在氣候科學與生物醫學領域展現出 “革命性工具” 的潛力 。

在氣候科學領域 , 面對降水預測中極端復雜的非線性交互 , Intern-Discovery 自主調用 30 余種工具 , 分析了 20 年的多模態數據 。 它寫了 4000 多行專業代碼 , 成功發現了被人類專家忽略的水汽與動力項關聯 , 并推導出一個簡潔的新型顯式非線性方程 。 該方程不僅形式優雅簡潔 , 且顯著提升了模擬精度 , 有效修正了長期存在的系統性偏差 , 證明了智能體在理論構建層面的創造力? 。


Intern-Discovery 在氣候科學的應用案例

在生物醫學領域 , 虛擬疾病生物學家 “元生” 通過模仿人類科學家的思維模板 , 整合遺傳學、蛋白質組學及臨床文獻等多源數據 。 即便在數據稀疏條件下 , 它仍成功發現并驗證了具有高臨床潛力的隱藏靶點 , 展示了從數據到機制、從假說到驗證的全流程智能化能力 。


Intern-Discovery 在生物醫學的應用案例

從 Intern-S1 的底層推理突破到 Intern-Discovery 的系統級應用 , 我們正逐步構建起一套覆蓋科學發現全周期的 AGI4S 基礎設施 。 這不僅是工具的革新 , 更是科研范式的重塑 —— 讓人工智能真正成為推動科學邊界拓展的合作伙伴 。

行動召喚:共拓新世界藍圖

綜上所述 , 我們正處在實現 AGI 的前夕 , 若 AGI = 通專融合(Specialized Generalist) , 則可深度專業化的通用模型(Specializable Generalist)是實現 AGI 的可行路徑 , 而“智者”SAGE 的三層技術框架正是驅動后者發展的核心架構 。

下一個前沿陣地是科學發現 —— 它既是推理智能的終極試煉場 , 也是 “通專融合” 的驗證舞臺 , 大規模推理將賦能科學發現 , 科學發現亦將反哺推理能力的進化 。

Intern-S1 與 Intern-Discovery 是邁向該方向的首步實踐 , 但這一切僅僅是初始的雛形 。 如果將“智者”SAGE 架構比作一張新世界的地圖 , 我們目前已建立了很好的初步驗證與很多尖兵前哨站 , 但這張地圖上仍存在廣闊的 “空白區域” 。

架構已經就緒 , 但畫卷仍存在大片留白 。 如果這些初步進展激起了你的興趣 , 我邀請你深入閱讀我們的論文與代碼 —— 它們都是開源的 。 但更重要的是 , 我邀請志同道合者與我們一同填補這些空白 , 共同構建完整的藍圖 。
謝謝!


本次報告核心要點總結

參考文獻

① Shanghai Artificial Intelligence Laboratory. Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [J
. arXiv preprint arXiv:2512.16969v1 2025.
② Vaswani A et al. Attention is all you need [C
// Advances in neural information processing systems 2017 30.
③ Zhang K Qi B Zhou B. Towards building specialized generalist ai with system 1 and system 2 fusion [J
. arXiv preprint arXiv:2407.08642 2024.
④ Qi B Zhang K Tian K ... Zhou B. Large language models as biomedical hypothesis generators: a comprehensive evaluation [C
. COLM 2024.
⑤ Zhou B. Building AGI through Specialized Generalist AI: pathways and key issues [J
. Communications of CCF 2025 21 (1): 54-62.
⑥ Cao J Wang J Wei R ... Zhou B Lin Z. Memory Decoder: A Pretrained Plug-and-Play Memory for Large Language Models [J
. arXiv preprint arXiv:2508.09874 2025.
⑦ Zhang K Zuo Y He B ... Zhou B. A survey of reinforcement learning for large reasoning models [J
. arXiv preprint arXiv:2509.08827 2025.
⑧ Cui G Yuan L Wang Z ... Zhou B Ding N. Process Reinforcement through Implicit Rewards [J
. arXiv preprint arXiv:2502.01456 2025.
⑨ Cui G Zhang Y Chen J ... Zhou B Ding N. The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [J
. arXiv preprint arXiv:2505.22617 2025.
⑩ Zhu X Cheng D Zhang D ... Zhou B Mei H Lin Z. FlowRL: Matching reward distributions for LLM reasoning [J
. arXiv preprint arXiv:2509.15207 2025.
? Zuo Y Zhang K Sheng L ... Ding N Zhou B. TTRL: Test-Time Reinforcement Learning [C
// NeurIPS 2025.
? Li P Ye J Chen Y ... Zhou B Chen K. InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [J
. arXiv preprint arXiv:2508.08636 2025.
? Li H Zuo Y Yu J ... Zhou B Ding N. SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [J
. arXiv preprint arXiv:2509.09674 2025.
? Zhou B Ding N Bai L Zhou H. Advancing AI for science: From the revolution of tools to the tools for revolution [J
. AI Open 2025 6: 323-328.
? Shanghai AI Laboratory. INTERN-S1: A SCIENTIFICMULTIMODAL FOUNDATION MODEL [J
. arXiv preprint arXiv:2508.15763 2025.
? Jiang Y Lou W Wang L ... Zhou B. SCP: Accelerating Discovery with a Global Web of Autonomous Scientific Agents [J
. arXiv preprint arXiv:2512.24189 2025.
? Guo Z Wang J Ling F ... Zhou B Bai L. A Self-Evolving AI Agent System for Climate Science [J
. arXiv preprint arXiv:2507.17311v3 2025.

    推薦閱讀