將注意力旋轉 90 度！今天，Kimi 的「注意力殘差」火了

2026-04-07 芯片 36氪算法 it芯片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯｜冷貓

自從 2015 年 ResNet 誕生以來，這種「將輸入直接加到輸出上」的簡單邏輯，統治了幾乎所有神經網絡架構。
但就在剛剛，沿用了十年的殘差機制「升級」了。隨橙想呢，替代方法竟然是「注意力機制」。

就連 OpenAI 「推理模型之父」，主導了 o1/o3 系列、Codex 編程模型及 GPT-4 的 STEM 能力開發的 Jerry Tworek 都深受這一論文啟發，認為應當重新思考之前的一切，「深度學習 2.0」的時代即將到來。

這篇顛覆傳統殘差連接機制的工作來自 Kimi 團隊，發布了一項重磅技術報告：Attention Residuals，該方法旨在通過對前序層進行學習到的、依賴輸入的注意力機制，來取代標準的深度遞歸。

論文標題：Attention Residuals 論文鏈接：https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf 項目鏈接：https://github.com/MoonshotAI/Attention-Residuals時間與深度的對偶
要理解 Attention Residuals 是在做什么，我們得先看傳統的殘差連接 y = x + f (x) 出了什么問題。
在大模型向更深、更強演進的過程中，這種殘差的加法機制帶來了兩個副作用：
1. 信息稀釋：殘差連接采用固定單位權重的均勻聚合，導致淺層特征在向深層傳遞時，其相對貢獻度隨深度線性衰減。這種「信息稀釋」現象限制了深層網絡對底層原始表示的直接利用能力。隨著層數增加，第一層的信息傳到第一百層時，已經被后面九十九層的信息層層沖淡。
2. 隱藏狀態爆炸：為了在不斷累加的殘差流中維持信號強度，深層模塊往往需要輸出模長更大的激活值。這種隱狀態的無序擴張不僅破壞了數值穩定性，還導致梯度分布不均，增加了超大規模模型訓練收斂的難度，直接導致了訓練的不穩定性。
本文的天才之處在于，發現模型的「深度」其實就是另一種形式的「時間」。

論文作者之一的 Yulun Du 老師道出了該論文的核心思想：將注意力旋轉 90° 。
Attention Residuals (AttnRes) 由此誕生：為每一層配備了一個「智能篩選器」。每一層都會發出一個 Query ，去之前的所有層里尋找最相關的特征，并按需分配權重進行聚合。

注意力殘差
理論重構：完整的注意力殘差
傳統的殘差連接（ResNet）本質上是深度遞歸：它像 RNN 一樣，把過去所有層的信息死板地「壓縮」進一個求和狀態中。

核心創新：既然 Transformer 用注意力機制取代了 RNN ，解決了長序列的遺忘問題；那么 AttnRes 就在深度上取代了殘差累加。數學實現：每一層不再是簡單地加上前一層，而是發出一個可學習的 Query ，去和之前所有層產生的 Key 做匹配。 Softmax 權重：通過 Softmax 歸一化，模型可以「挑選」出對自己最有用的某幾層。比如第 50 層可以直接提取第 2 層的特征，權重占比可以高達 0.8 ，而不用擔心被中間的 48 層稀釋。工程落地：Block AttnRes 的分塊策略

效率奇跡：實驗發現，即便模型有上百層，只要劃分成 N≈8 個塊，就能獲得絕大部分性能增益。復雜度驟降：內存開銷從隨層數 L 增長，降到了隨塊數增長。這意味著你可以用極小的代價（推理延遲增加2%），獲得一個「更聰明」的深層網絡。
圖 1：Attention Residuals 概覽：(a) 標準殘差（Standard Residuals）：采用均勻加法累加的傳統殘差連接方式。 (b) 全量注意力殘差（Full AttnRes）：每一層都通過學習到的注意力權重，有選擇地聚合之前所有層的輸出。 (c) 塊注意力殘差（Block AttnRes）：將各層劃分為若干個「塊」，將內存開銷從 O (Ld) 降低至 O (Nd) 。
戰果：1.25 倍的「計算杠桿」
根據論文信息，實驗架構與 Kimi Linear 完全一致，這是一種遵循 Moonlight / DeepSeek-V3 設計的混合專家模型（MoE） Transformer 。唯一的修改是在殘差連接中加入了 AttnRes；模型深度、隱藏維度、專家路由和 MLP 結構等其他組件均保持不變。
研究團隊測試了五種模型規模，并為每種規模訓練了三個變體：PreNorm 基準模型、全量 AttnRes 以及約 8 個塊的 Block AttnRes 。

下圖展示了擬合后的規模化曲線。

三個變體的斜率相似，但 AttnRes 在整個計算范圍內一致實現了更低的損耗（Loss）。基于擬合曲線，在 5.6 PFLOP/s-days 的計算量下， Block AttnRes 的損耗為 1.692 ，而基準模型為 1.714 ，這相當于 1.25 倍的計算優勢（Compute Advantage）。隨著模型規模增大， Full 與 Block 變體之間的差距在縮小。
研究團隊的最大模型基于 Kimi Linear 48B 配置：27 個 Transformer 塊（共 54 層），在 256 個路由專家中激活 8 個，外加 1 個共享專家，總參數 48B ，激活參數 3B 。該模型采用 Block AttnRes ，每塊 6 層，共產生 9 個塊外加 1 個 Token 嵌入，形成 10 個深度方向的來源。

上圖展示了模型在 1T token 訓練過程中的動態變化：
驗證損耗： AttnRes 在整個訓練過程中始終保持較低的驗證損耗，尤其在衰減（Decay）階段差距進一步拉大。輸出量級：基準模型遭受 PreNorm 稀釋問題：隨著隱狀態量級隨深度單調增長，深層網絡被迫從固定縮放的歸一化輸入中學習越來越大的輸出，以維持影響力。而 Block AttnRes 將這種增長限制在每個塊內，通過塊邊界的選擇性聚合重置了累加過程，呈現出有界的周期性模式。梯度量級：在所有殘差權重固定為 1 的基準模型中，梯度流在深度上的分布極不均勻，導致早期層梯度過大。 Block AttnRes 的可學習 Softmax 權重引入了來源之間的競爭，從而實現了顯著更均勻的梯度分布。
下游性能表現：如上表所示， Block AttnRes 在所有評測任務中均達到或超過了基準模型。
提升顯著的任務：在多步推理任務中提升尤為突出，如 GPQA-Diamond (+7.5)、Minerva Math (+3.6) 以及代碼生成 HumanEval (+3.1) 。知識類任務： MMLU (+1.1) 和 TriviaQA (+1.9) 也展現了穩健的提升。數據給出了最有力的證明：
計算效率：達到同樣的性能， AttnRes 相比傳統殘差節省了約 20% 的計算量（1.25x 優勢）。邏輯推理：在數學、代碼等硬核任務上提升顯著。例如，在極難的 GPQA-Diamond 測試中，性能提升了 7.5 分。穩定性：成功抑制了隱藏狀態的數值爆炸，讓深層網絡依然能保持「冷靜」和「高效」。總結：RethinkImagine
用更高維的視角看基礎架構的研究，時間和空間都是相通的。
這篇論文「將注意力旋轉 90°」的思想，似乎帶給 Karpathy 一些啟示和思考。

ResNet 的殘差流是信息在不同空間深度上的傳遞。 SGD （隨機梯度下降）的權重流是信息在不同時間維度上的傳遞。
研究團隊覺得 ResNet 的加法太樸素了，所以提議用 Attention 來篩選過去每一層的輸出。既然 SGD 也是 ResNet ，「Attention is All You Need」，那我們為什么不能在優化器里也加上 Attention？
架構的生命力，往往來自于對慣性的反思。
當我們回過頭去審視那些基礎架構，或許就能在過去的故紙堆中，發現更多通往未來的巧妙結合。
【將注意力旋轉 90 度！今天，Kimi 的「注意力殘差」火了】更多信息，請參閱原論文。

推薦閱讀

上一篇：17000000部！小米穩居全球第三！2026年中高端機成獲利核心！

下一篇：騰訊出手，第一個小龍蝦安全管家它來了。