谷歌祭出Transformer殺手，8年首次大突破！掌門人劃出AGI死線

2026-04-26 上海市腦機接口

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：KingHZ 桃子
【新智元導讀】谷歌DeepMind掌門人斷言， 2030年AGI必至！不過，在此之前，還差1-2個「Transformer級」核爆突破。恰在NeurIPS大會上，谷歌甩出下一代Transformer最強繼任者——Titans架構。

2025年即將進入尾聲，下一年AI將走向何方？
最近，谷歌DeepMind CEO Hassabis在一場訪談中，對未來12個月的「關鍵趨勢」做出重磅預測。

劃重點?。。 ≈饕幸韻攣宕蠛誦牡恪?

多模態融合徹底打通
類人的視覺智能
語言+視頻深度融合
世界模型成為主流
智能體達到可靠應用水平

Hassabis強調，我們應盡快Scaling現有的AI系統，至少它們會成為最終AGI的「關鍵部件」。
甚至，它可能會成為那個終極的AGI系統。
不過話說回來，我們至少還需要1-2個像Transformer、AlphaGo這樣級別的突破才可以。
八年前，谷歌Transformer奠基之作出世，徹底改變了AI界。
如今，谷歌另一個極有潛力成為Transformer的全新架構——Titans ，正式在NeurIPS 2025亮相。
它完美融合了「RNN極速響應+Transformer強大性能」，集兩者之大成。
即便在200萬token上下文中， Titans召回率和準確率最高。博客一出，在全網掀起了海嘯級地震。

正如Hassabis所言，「顛覆性」AGI已近在眼前！

DeepMind掌門人：2030年， AGI必至

今年早些時候， Hassabis就曾預測，具備或超越人類能力的AGI ，可能會在2030年之前實現。
在周四的公開對話中， Hassabis再度強調：
AGI很可能是人類歷史上最具顛覆性的時刻之一，如今它正在加速逼近。
若要我給出一個時間，人類距離實現AGI僅剩下5到10年。
在談及未來愿景時， Hassabis的聲音飽含憧憬：
我一直以來最大的夢想、也是我奮斗一生的目標，是實現「豐饒時代」的理想社會。
一個人類面臨的最大問題都已被解決的世界。

比如，免費的、可再生的清潔能源，也許人類解決了核聚變，或者造出了更優的電池、太陽能材料、半導體，在材料科學上取得突破；人類也攻克了許多疾病。
那樣一來，人類將進入一個全新的時代，一個后稀缺時代，人類很可能繁榮發展，走向星空，將意識播撒到銀河系。
但即使是那種烏托邦式的圖景，也伴隨著一些問題：如果這些技術能解決所有難題，那么我們人類存在的目的又是什么？還會剩下什么問題讓我們去解決？
作為一個科學家， Hassabis為此感到擔憂，甚至對科學方法本身也是如此。這是其一。

而通往AGI的道路注定不會一帆風順。
Hassabis指出，惡人和錯誤使用AI的風險真實存在，甚至「災難性后果」已開始顯現。
比如，對能源或供水系統的網絡攻擊，這些都已經是顯而易見的攻擊目標。

也許，目前還沒用上非常先進的AI ，但這種事基本已經在發生了。

AI帶來最嚴重的后果，可能是滅絕級風險。他強調，沒人確切知道人類滅亡概率P(doom) ，但直言：
這個風險不是零。只要不是零，那就必須認真對待，投入資源應對。

對Gemini 3探索不足10%

Hassabis認為，最被低估的能力是Gemini能夠「觀看」視頻并回答相關概念性問題。
他舉例說，曾詢問Gemini電影《搏擊俱樂部》中的一個場景：
「打架前摘下了戒指，這個動作有什么象征意義？」
Gemini回答，這代表主角脫離日常生活的象征，是對社會規范的拒絕，是一種「放棄身份」的宣言。
Gemini的這類「抽象理解」能力出乎他的意料。 Hassabis認為Gemini已經具備某種「元認知」。
還有另一個例子是Gemini Live功能。他認為，多模態AI的潛力，遠比大多數人今天所理解的要大得多。
每次DeepMind推出新版模型時， Hassabis都會有種強烈的遺憾感：自己可能連這個系統的十分之一都沒來得及深入測試，就已經要投入下一個版本的研發了。
而用戶們往往會比Gemini開發人員更快地發掘新功能，把模型用到連他們都沒想到的地方。

最核心的觀點

Hassabis最核心的觀點可能是AGI的實現路徑問題。
他認為，我們距離真正的AGI還有大約5到10年的時間。
DeepMind對AGI的定義要求很高：要稱得上「通用」， AI系統必須全面具備人類的所有認知能力，其中包括「創造力」和「發明能力」。
現在的LLM在某些領域已經非常驚艷，堪比博士水平，甚至能拿奧林匹克金牌；但在另外一些領域，它們仍然存在明顯缺陷，呈現出「參差不齊」的智力表現。

真正的AGI應當擁有「各項能力均衡發展」的穩定智能。
這包括當前模型所缺失的幾個關鍵能力：持續學習（continual learning）、在線學習（online learning）、長期規劃和多步推理。
目前，大語言模型完全不具備這些能力。
他承認存在一種可能性，即規模擴展「可能就是AGI系統的全部」，盡管他認為這種情況可能性較小。
這需要我們必須將規模擴展推向絕對極限。
退一步說，規模擴展至少會成為最終AGI的「關鍵構件」。
Hassabis相信，它們未來會具備這些能力，但我們可能還需要一兩個重大技術突破。
而谷歌似乎已經有了Transformer級的重大突破。

最強「Transformer」出世

幾天前， NeurIPS大會上一場對談中，谷歌首席科學家Jeff Dean和AI教父Hinton同框。
關于LLM和研究路線， Hinton當場提出了一個尖銳的問題——
谷歌是否后悔發表Transformer論文？

Jeff Dean給出了干脆的回應：「不后悔！這項研究對世界產生了重大的影響」。

幾乎同一時間，谷歌放出了全新的架構Titans ，成為Transformer的最強繼任者！
此外，還有一個全新的MIRAS框架。
兩者的結合，可以讓 AI模型在運行過程中動態更新核心記憶，跑得更快，也能處理超長規模的上下文。

眾所周知， Transformer最大瓶頸在于，上下文無限擴展，會導致計算成本飆升。
除了業界迭代的RNN、Mamba-2等架構，谷歌也提出了新一代解決方案——
如上所述， Titans+MIRAS ，就是一套把RNN速度和Transformer準確性，結合起來的架構與理論思路。

Titans（MAC）架構：通過一個長時記憶模塊來壓縮歷史數據，并將生成的摘要加入當前上下文，再交由注意力機制處理
Titans是具體的模型架構（工具），而MIRAS 是用于泛化這些方法的理論框架（藍圖）。
它們合起來，實現了一種「測試時」記憶的能力。
在運行時，模型不再只是把信息壓成一段靜態狀態，而是在數據不斷輸入時主動學習，即時更新自己的參數。
這個關鍵機制，可以讓模型立刻把新的、具體的信息加入到核心知識里。
值得一提的是，清華姚班校友鐘沛林參與了兩項工作。他博士畢業于哥倫比亞大學， 2021年起加入谷歌任研究科學家。

Titans：即時掌握新上下文

一個高效的學習系統，需要既獨立又互相關聯的「記憶模塊」。
這一機制，就像人腦會將短期記憶和長期記憶區分開來一樣。

為此， Titans引入了一種全新的神經長期記憶模塊，本質上是一個深層神經網絡（一個多層感知機MLP）。
它擁有更強的表達能力，在不丟失關鍵信息的同時，總結海量內容。
有了Titans ， LLM不只是記筆記，而是在真正理解并串聯整個故事。

論文地址：https://arxiv.org/pdf/2501.00663
更重要的是， Titans并非被動存儲數據，而會主動學習如何識別并保留貫穿整個輸入的重要關系和概念主題。
衡量這一能力的核心指標之一，谷歌將其稱之為「驚奇度」（surprise metric）。
假設遇到「高驚奇」度的信息時，會被優先寫入長期記憶。而且，會隨著不斷學習，自適應管理權重，主動遺忘不再需要的信息。

MIRAS：統一視角，序列建模

序列建模的每一次重大突破，本質上都在使用同一種底層機制：高度復雜的聯想記憶模塊。
MIRAS獨到之處和實用價值在于，它看待AI建模的方式——
把各種架構視為解決同一個核心問題的「不同手段」。

如何在融合新信息與舊記憶的同時，不讓關鍵概念被遺忘。

MIRAS框架
MIRAS通過四個關鍵設計維度，來定義序列模型：

記憶架構（Memory architecture）：承擔信息存儲的結構，例如向量、矩陣，或像Titans深層多層感知機。
注意偏置（Attentional bias）：模型內部優化的學習目標，決定優先關注哪些信息。
保留門（Retention gate）：一種記憶正則化機制。 MIRAS將傳統「遺忘機制」重新解釋為正則化形式，用于在學習新知識與保留舊知識之間取得平衡。
記憶算法（Memory algorithm）：用于更新記憶狀態的優化算法。

以MIRAS框架的視角審視近期序列模型

超越注意力

幾乎所有現行成功的序列模型，在處理偏置和保留機制時，都依賴于均方誤差（MSE）或點積相似度。這種依賴導致模型對異常值（outliers）過于敏感，并限制了其表達能力。
MIRAS突破了這一局限。
借鑒優化理論與統計學文獻，它構建了一個生成式框架，開拓了更豐富的設計空間。
基于MIRAS ，谷歌構建了三款獨特的無注意力（Attention-free）模型：

YAAD
MONETA
MEMORA

在語言建模和常識推理任務中， Titans架構在同等規模下，優于最先進的線性循環模型（如Mamba-2和Gated DeltaNet）以及Transformer++基線模型。

新穎的MIRAS變體（MONETA、YAAD、MEMORA）相比這些基線模型也提升了性能，驗證了探索穩健的非MSE優化機制的優勢。

重要的是，這些模型保持了高效的并行化訓練和快速的線性推理速度。
這些新架構最顯著的優勢在于其處理超長上下文的能力。
這在BABILong基準測試中得到突出體現，該任務需要對分布在超長文檔中的事實進行推理。
在BABILong基準上， Titans以更少的參數量，表現優于包括GPT-4等超大型模型在內的所有基線模型。
Titans進一步展示了可有效擴展到超過200萬token上下文窗口的能力。

Titans在超長上下文推理任務上的性能表現
有Reddit網友預測，或許我們在明天，就可以看到采用Titans架構的Gemini 4 。

正如網友所言，這可能是谷歌繼Transformer之后，首個重大突破！

【谷歌祭出Transformer殺手，8年首次大突破！掌門人劃出AGI死線】在架構層面， Titans+MIRAS補上了「記憶與持續學習」。
而在多模態能力層面， Gemini顯露「元認知」的邊緣形態。
也許， AGI正加速到來。

推薦閱讀

上一篇：微醫張群華：政策與技術雙驅動微醫深耕AI+醫療重構全病程管理

下一篇：田曦薇代言！vivo S50系列定檔12月15日：首款驍龍8E5小屏旗艦來了