將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了

將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了

文章圖片

將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了

文章圖片

將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了

文章圖片

將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了

文章圖片

將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了

文章圖片

將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了

文章圖片

將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了

文章圖片

將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了

編輯|冷貓

自從 2015 年 ResNet 誕生以來 , 這種「將輸入直接加到輸出上」的簡單邏輯 , 統治了幾乎所有神經網絡架構 。
但就在剛剛 , 沿用了十年的殘差機制「升級」了 。 隨橙想呢 , 替代方法竟然是「注意力機制」 。

就連 OpenAI 「推理模型之父」 , 主導了 o1/o3 系列、Codex 編程模型及 GPT-4 的 STEM 能力開發的 Jerry Tworek 都深受這一論文啟發 , 認為應當重新思考之前的一切 , 「深度學習 2.0」的時代即將到來 。

這篇顛覆傳統殘差連接機制的工作來自 Kimi 團隊 , 發布了一項重磅技術報告:Attention Residuals, 該方法旨在通過對前序層進行學習到的、依賴輸入的注意力機制 , 來取代標準的深度遞歸 。

論文標題:Attention Residuals 論文鏈接:https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf 項目鏈接:https://github.com/MoonshotAI/Attention-Residuals時間與深度的對偶
要理解 Attention Residuals 是在做什么 , 我們得先看傳統的殘差連接 y = x + f (x) 出了什么問題 。
在大模型向更深、更強演進的過程中 , 這種殘差的加法機制帶來了兩個副作用:
1. 信息稀釋: 殘差連接采用固定單位權重的均勻聚合 , 導致淺層特征在向深層傳遞時 , 其相對貢獻度隨深度線性衰減 。 這種「信息稀釋」現象限制了深層網絡對底層原始表示的直接利用能力 。 隨著層數增加 , 第一層的信息傳到第一百層時 , 已經被后面九十九層的信息層層沖淡 。
2. 隱藏狀態爆炸:為了在不斷累加的殘差流中維持信號強度 , 深層模塊往往需要輸出模長更大的激活值 。 這種隱狀態的無序擴張不僅破壞了數值穩定性 , 還導致梯度分布不均 , 增加了超大規模模型訓練收斂的難度 , 直接導致了訓練的不穩定性 。
本文的天才之處在于 , 發現模型的「深度」其實就是另一種形式的「時間」 。

論文作者之一的 Yulun Du 老師道出了該論文的核心思想:將注意力旋轉 90° 。
Attention Residuals (AttnRes) 由此誕生:為每一層配備了一個「智能篩選器」 。 每一層都會發出一個 Query , 去之前的所有層里尋找最相關的特征 , 并按需分配權重進行聚合 。

注意力殘差
理論重構:完整的注意力殘差
傳統的殘差連接(ResNet)本質上是深度遞歸:它像 RNN 一樣 , 把過去所有層的信息死板地 「壓縮」進一個求和狀態中 。

核心創新: 既然 Transformer 用注意力機制取代了 RNN , 解決了長序列的遺忘問題;那么 AttnRes 就在深度上取代了殘差累加 。 數學實現: 每一層不再是簡單地加上前一層 , 而是發出一個可學習的 Query , 去和之前所有層產生的 Key 做匹配 。 Softmax 權重: 通過 Softmax 歸一化 , 模型可以 「挑選」 出對自己最有用的某幾層 。 比如第 50 層可以直接提取第 2 層的特征 , 權重占比可以高達 0.8 , 而不用擔心被中間的 48 層稀釋 。工程落地:Block AttnRes 的分塊策略

效率奇跡: 實驗發現 , 即便模型有上百層 , 只要劃分成 N≈8 個塊 , 就能獲得絕大部分性能增益 。 復雜度驟降: 內存開銷從隨層數 L 增長 , 降到了隨塊數增長 。 這意味著你可以用極小的代價(推理延遲增加2%) , 獲得一個 「更聰明」 的深層網絡 。
圖 1:Attention Residuals 概覽:(a) 標準殘差(Standard Residuals): 采用均勻加法累加的傳統殘差連接方式 。 (b) 全量注意力殘差(Full AttnRes): 每一層都通過學習到的注意力權重 , 有選擇地聚合之前所有層的輸出 。 (c) 塊注意力殘差(Block AttnRes): 將各層劃分為若干個「塊」 , 將內存開銷從 O (Ld) 降低至 O (Nd) 。
戰果:1.25 倍的「計算杠桿」
根據論文信息 , 實驗架構與 Kimi Linear 完全一致 , 這是一種遵循 Moonlight / DeepSeek-V3 設計的混合專家模型(MoE) Transformer 。 唯一的修改是在殘差連接中加入了 AttnRes;模型深度、隱藏維度、專家路由和 MLP 結構等其他組件均保持不變 。
研究團隊測試了五種模型規模 , 并為每種規模訓練了三個變體:PreNorm 基準模型、全量 AttnRes 以及約 8 個塊的 Block AttnRes 。

下圖展示了擬合后的規模化曲線 。

三個變體的斜率相似 , 但 AttnRes 在整個計算范圍內一致實現了更低的損耗(Loss) 。 基于擬合曲線 , 在 5.6 PFLOP/s-days 的計算量下 , Block AttnRes 的損耗為 1.692 , 而基準模型為 1.714 , 這相當于 1.25 倍的計算優勢(Compute Advantage) 。 隨著模型規模增大 , Full 與 Block 變體之間的差距在縮小 。
研究團隊的最大模型基于 Kimi Linear 48B 配置:27 個 Transformer 塊(共 54 層) , 在 256 個路由專家中激活 8 個 , 外加 1 個共享專家 , 總參數 48B , 激活參數 3B 。 該模型采用 Block AttnRes , 每塊 6 層 , 共產生 9 個塊外加 1 個 Token 嵌入 , 形成 10 個深度方向的來源 。

上圖展示了模型在 1T token 訓練過程中的動態變化:
驗證損耗: AttnRes 在整個訓練過程中始終保持較低的驗證損耗 , 尤其在衰減(Decay)階段差距進一步拉大 。 輸出量級: 基準模型遭受 PreNorm 稀釋問題:隨著隱狀態量級隨深度單調增長 , 深層網絡被迫從固定縮放的歸一化輸入中學習越來越大的輸出 , 以維持影響力 。 而 Block AttnRes 將這種增長限制在每個塊內 , 通過塊邊界的選擇性聚合重置了累加過程 , 呈現出有界的周期性模式 。 梯度量級: 在所有殘差權重固定為 1 的基準模型中 , 梯度流在深度上的分布極不均勻 , 導致早期層梯度過大 。 Block AttnRes 的可學習 Softmax 權重引入了來源之間的競爭 , 從而實現了顯著更均勻的梯度分布 。
下游性能表現: 如上表所示 , Block AttnRes 在所有評測任務中均達到或超過了基準模型 。
提升顯著的任務: 在多步推理任務中提升尤為突出 , 如 GPQA-Diamond (+7.5)、Minerva Math (+3.6) 以及代碼生成 HumanEval (+3.1) 。 知識類任務: MMLU (+1.1) 和 TriviaQA (+1.9) 也展現了穩健的提升 。數據給出了最有力的證明:
計算效率: 達到同樣的性能 , AttnRes 相比傳統殘差節省了約 20% 的計算量(1.25x 優勢) 。 邏輯推理: 在數學、代碼等硬核任務上提升顯著 。 例如 , 在極難的 GPQA-Diamond 測試中 , 性能提升了 7.5 分 。 穩定性: 成功抑制了隱藏狀態的數值爆炸 , 讓深層網絡依然能保持「冷靜」和「高效」 。總結:RethinkImagine
用更高維的視角看基礎架構的研究 , 時間和空間都是相通的 。
這篇論文「將注意力旋轉 90°」的思想 , 似乎帶給 Karpathy 一些啟示和思考 。

ResNet 的殘差流是信息在不同空間深度上的傳遞 。 SGD (隨機梯度下降)的權重流是信息在不同時間維度上的傳遞 。
研究團隊覺得 ResNet 的加法太樸素了 , 所以提議用 Attention 來篩選過去每一層的輸出 。既然 SGD 也是 ResNet , 「Attention is All You Need」 , 那我們為什么不能在優化器里也加上 Attention?
架構的生命力 , 往往來自于對慣性的反思 。
當我們回過頭去審視那些基礎架構 , 或許就能在過去的故紙堆中 , 發現更多通往未來的巧妙結合 。
【將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了】更多信息 , 請參閱原論文 。

    推薦閱讀