華為新架構砍了Transformer大動脈！任意模型推理能力原地飆升

2026-04-11 智能門鎖匯頂科技

【華為新架構砍了Transformer大動脈！任意模型推理能力原地飆升】

文章圖片

文章圖片

文章圖片

文章圖片

金磊發自凹非寺
量子位 | 公眾號 QbitAI
是時候給Transformer的大動脈動刀子了。
因為即便它享有當下AI世界基石的地位，但自身問題也是非常明顯：
一旦遇到復雜的數學題或者需要多步邏輯推理的時候，就開始一本正經地胡說八道了……

問題究竟出在了哪里？
答案就藏在Transformer的核心機制里——Attention 。
傳統Attention機制本質上像是一種配對比較：每個詞只和另一個詞直接發生關系，生成一個注意力權重。
這種架構雖然擅長捕捉長距離依賴，但在建模復雜、多跳、多點之間的邏輯關系時卻顯得力不從心了。
例如它能輕松理解“A認識B” ，但如果要它理解“張三通過李四認識了王五” ，即多跳、多點之間的復雜、間接關系，它的腦回路就顯得不夠深，推理能力的天花板瞬間觸頂。
現在，這個天花板，被華為諾亞方舟實驗室捅破了！
因為就在最近，團隊祭出了一種全新架構，叫做Nexus ，即高階注意力機制（Higher-Order Attention Mechanism）。

它可以說是直接狙擊了Attention機制的核心痛點，使用更高階注意力，就能有效地建模多跳、多點之間的復雜關聯。
并且從實驗結果來看，效果也是有點驚艷在身上的。
只要換上Nexus這個新架構，模型在數學和科學等復雜推理任務上的能力，都能立馬實現大幅飆升，而且還是參數零增的那種。
妙哉，著實妙哉。
接下來，就讓我們一同來深入了解一下Nexus的精妙一刀。
高階注意力機制砍出的精妙一刀要理解高階的意義，我們必須先回顧傳統自注意力機制的根本缺陷。
標準的自注意力機制本質上是將輸入序列X分別通過三個線性變換WQ ， WK ， WV生成Query（Q）、Key（K）、Value（V），再通過softmax計算注意力權重：

但這里就出現了一個關鍵的問題：Q和K都是靜態的、與上下文無關的線性投影。
也就是說，某個token的Query向量僅由它自己決定，無法感知其他token的存在；這導致注意力權重只能反映兩兩之間的直接關系。
精妙第一刀：Q和K的革新
華為諾亞方舟實驗室的第一個刀法，就精妙地砍在了這里：Nexus讓Q和K的生成過程本身也變成一個注意力操作。
換句話說， token在計算最終的Q和K之前，會先進行一次“預推理”；這個過程，其實就是一個嵌套的自注意力機制。
Token首先通過這個內部循環，從全局上下文中聚合信息，形成一個更加精煉、更具上下文感知能力的表示，然后再用這個表示去計算最終的Q和K 。
這就好比，在你問我答（Q和K計算Attention）之前，每個token都先在內部進行了深思熟慮，充分吸收了它在整個序列中的環境信息。
這樣生成的Q和K ，自然就擺脫了線性投影的僵硬，具備了捕捉復雜關系的動態性。

精妙第二刀：巧用遞歸框架
Nexus架構最精妙之處，還在于它的遞歸框架（Recursive Framework）。
這個內部注意力循環可以被遞歸地來嵌套。
如果我們將一層Attention視為一階關系（A認識B），那么將Attention的輸出作為下一層Attention的輸入，就可以構建二階關系（張三通過李四認識王五），乃至更高階的關系。
在Nexus中，這種遞歸嵌套被巧妙地集成在一個單層結構中，形成了一個層次化的推理鏈。
論文進一步將上述過程遞歸化，定義第m階注意力為：

其中， m=1就是標準注意力；m=2表示Q和K由一次內層注意力生成；m=3表示Q和K由二階注意力生成，相當于“注意力的注意力的注意力” 。
這種結構天然支持多跳推理鏈，就像人在解一道數學題時，先理解題干中的關鍵變量（第1層），再思考它們之間的公式關系（第2層），最后驗證整體邏輯是否自洽（第3層）。
精妙第三刀：不增參數
復雜架構往往意味著更高的計算開銷和更多的參數量，但Nexus通過精巧的設計，完全規避了這些問題——權重共享策略。
具體來說，無論是內層還是外層的注意力模塊，都復用同一組投影權重WQ ， WK ， WV 。
這意味著，盡管計算路徑更復雜，但模型參數量和原始Transformer完全一致。
這種設計背后有一個關鍵假設：無論處于遞歸的哪一層，將token投影為Query或Key的語義變換方式是相似的。
團隊通過實驗證明，這一假設是成立的。

在Pythia-70M的消融實驗中，使用權重共享的Nexus-QK-Shared版本，平均準確率仍比基線高出近1個百分點，而參數量毫無增加。
這就讓Nexus成為了一種極其高效的表達密度提升器——用相同的參數，實現更強的推理能力。
只要換上Nexus ，推理效果立竿見影那么Nexus的效果到底如何？
論文在兩個維度做了驗證：從零訓練的小模型，以及對已有大模型的架構改造。
小模型全面領先
研究團隊在 Pythia 系列（70M 到 1B）上從頭訓練 Nexus ，并在六個標準推理數據集上評估：ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ 。
結果非常一致：Nexus 在所有規模上都優于原始Transformer 。
尤其在需要多步推理或科學常識的任務中提升顯著。例如：
在SciQ（科學問答）上， 70M模型準確率從61.5%提升至68.5% ，提升7個百分點；在PiQA（物理常識推理）上， 1B模型從62.5%提升至63.6% 。
這說明Nexus特別擅長處理那些不能靠表面模式匹配解決的問題，是真的有在做推理。
大模型改裝即用
面對規模更大的模型， Nexus還體現出了即插即用的能力。
團隊將Qwen2.5的1.5B和7B版本的標準注意力層直接替換為Nexus結構，僅在SFT（監督微調）階段進行訓練，未改動預訓練權重。
結果表明，在三個高難度數學推理基準上（MATH-500、AIME24、GPQA-Diamond）， Nexus 均帶來穩定提升：
Qwen2.5-1.5B在MATH-500上準確率從78.6% → 80.1%； Qwen2.5-7B在AIME24上從 45.2% → 47.5% 。
尤其值得注意的是AIME24的提升，因為這類題目要求嚴格的多步邏輯推導，錯誤一步就全盤皆輸。 Nexus 的改進說明，它確實在內部構建了更連貫的推理鏈。
從這一層面來看， Nexus不僅是一個新訓練范式，還是一套架構升級套件。你不用重新訓練一個千億模型，只需在微調階段替換注意力層，就能解鎖更強的推理能力。
推理能力可內生于架構雖然Nexus目前聚焦于語言模型，但其思想具有普適性。
高階關系建模在視覺、圖神經網絡、多模態任務中同樣關鍵；例如，在視頻理解中， “A看到B打了C” 就是一個典型的三元關系，傳統Attention難以直接捕捉。
華為諾亞團隊表示，下一步將探索Nexus在視覺Transformer和多模態大模型中的應用，并優化其計算效率。
Transformer 的智商天花板，或許從來不在參數量，而在其注意力機制的表達能力。華為諾亞的 Nexus ，用一種優雅而高效的方式，為這一核心模塊注入了高階推理能力。
它不靠堆料，不靠提示工程，而是從架構底層重構了模型的思考方式。
因此， Nexus也提醒了我們：有時候，聰明的架構比規模的大小更重要。
論文地址：https://arxiv.org/abs/2512.03377
— 完 —
量子位 QbitAI · 頭條號
關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：Anthropic官宣PTC突破，中國開發者一年前就實現了

下一篇：亞馬遜Agent克服遺忘的“秘訣”，被中國團隊掌握，讓大模型遺忘率趨近于0