MIT最新發現:這十年,算法進步被高估了

MIT最新發現:這十年,算法進步被高估了

文章圖片

MIT最新發現:這十年,算法進步被高估了

文章圖片

MIT最新發現:這十年,算法進步被高估了

文章圖片


機器之心報道
機器之心編輯部
在過去十年中 , AI 的進步主要由兩股緊密相關的力量推動:迅速增長的計算預算 , 以及算法創新 。
相比之下 , 計算量的增長較容易衡量 , 但我們仍然缺乏對算法進步的清晰量化 , 究竟哪些變化帶來了效率提升 , 這些提升的幅度有多大 , 以及它們在不同計算規模下是否依然成立 。
2024 年 , 有研究通過分析數百個語言模型 , 他們估計在過去十年里 , 算法進步在所謂的有效計算量(effective compute)方面貢獻了超過 4 個數量級的提升;而根據對歷史 AI 文獻的分析 , 計算規模本身增長了 7 個數量級 。
具體而言 , 所有算法創新加起來使模型的效率提高了大約 22000 倍 , 這意味著在理論上可以用少得多的浮點運算次數(FLOPs)達到相同的性能水平 。
然而 , 我們仍然缺乏對這類進步的精確分解 , 而關于算法進步來源的許多關鍵問題仍未得到充分研究 。 例如:各種算法改進之間是如何相互作用的?算法進步是由一系列小改動累積而成 , 還是由少數幾次重大突破推動的?算法改進是像摩爾定律那樣平滑持續地發展 , 還是呈現間斷平衡(即長時間停滯 + 突然大跳躍)的模式?
為回答這些問題 , 來自 MIT 等機構的研究者采用了三種互補的方法:
對語言模型中的重要算法改進進行消融實驗; 開展 scaling 實驗 , 以測量不同架構在最優 scaling 行為上的差異; 對數據與參數 scaling 轉換進行理論分析 。
論文地址:https://arxiv.org/pdf/2511.21622 論文標題:On the Origin of Algorithmic Progress in AI最終得到三條結論:
1:經過實驗評估的大多數算法創新都只帶來了小幅的、與規模無關的效率提升 , 總體計算效率提升不到 10 倍 , 并且在推算到 2025 年的計算能力極限(2 × 1023 FLOPs)時 , 這些提升僅占總改進的不到 10% 。 這表明 , 與規模無關的算法進步在整體效率提升中所占的份額很小
2:本文發現有兩項強烈依賴規模(scale-dependent)的算法創新:從 LSTM 到 Transformer , 以及從 Kaplan 到 Chinchilla。 當將其外推到 2025 年的計算前沿時 , 這兩項創新合計占據了全部效率提升的 91% 。 這意味著:對于小規模模型而言 , 算法進步的幅度比此前認為的要小幾個數量級 。
3:在規模依賴型創新的情況下 , 效率提升不僅需要持續的計算投入 , 而且算法進步的速度還強烈依賴于你選擇的參考算法 。 換句話說 , 相對于某一個基線算法 , 連續模型之間的進步率可能看起來是指數級的;但相對于另外一個基線算法 , 它卻可能完全為零 。
總體來看 , 這些發現表明:算法進步可能本質上就是依賴規模的 , 要真正體現其效益需要不斷增長計算規模 。 同時 , 這也意味著算法進步對大模型開發者的益處遠大于對小規模參與者的益處 。

規模不變型算法
本文首先通過大量的消融實驗來分析單個算法的影響 , 從而繪制出算法改進的細粒度圖景 。 此外 , 本文還嘗試估計了多項算法組合后的聯合效果 。
本文發現:原始論文(即提出某項算法改進的那篇論文)所聲稱的效率提升 , 往往遠高于后續文獻給出的估計 , 也高于本文的實驗結果 。

規模不變型算法的效率提升既小且分布高度不均
實驗中發現 , 從 LSTM 切換到 Modern Transformer 的總效率提升為 6.28× , 而從 LSTM 切換到 Retro Transformer 的效率提升為 4.69× 。 這比 Ho 等人(2024)的估計(他們認為 LSTM→Transformer 的提升約 60×)小得多 。
雖然本文確實觀察到一些改進(例如 Adam 優化器、以及從 post-layernorm 切換到 pre-RMSNorm)帶來了大約 2× 的效率提升 , 但作者測量的大多數創新帶來的提升都很小 。
有趣的是 , 他們看到一個高度偏斜的效率提升分布:盡管所有被消融的創新帶來的提升都低于 4× , 但提升倍數卻極不均勻 , 主要集中在少數幾項改進上 , 例如 Adam 或 pre-layernorm 。
從這個角度來看 , 算法進步比之前想象的更加斷裂 / 不連續:多年小幅改進之后 , 會出現一次較大的算法躍遷 。
許多改進的效率提升幅度很小 , 這也推動本文開展第二部分實驗 , 比較算法變化在不同規模下的影響 , 從而揭示這些變化對神經網絡 scaling laws 的作用 。
依賴于規模的算法
前文提到 , 算法改進在小規模模型上帶來的收益非常有限 。 因此自然會產生一個問題:在大規模下 , 算法收益會變得更大嗎?
因此 , 本文對不同架構、優化器 , 以及算法創新進行了 scaling 實驗 , 以更好地理解它們的效率提升如何隨計算規模變化 。
實驗模型主要為 LSTM、Transformer , 以及兩種 Transformer 變體:Modern Transformer、Retro Transformer 。
規模擴展實驗:從 LSTM 到 Transformer
圖 4A 展示了 LSTM 與現代 Transformer 在 scaling 上的差異 , 圖 4B 展示了現代 Transformer 與 Retro Transformer 的 scaling 差異 。

Scaling 圖表表明 , 神經網絡架構的改進并不是規模不變的 , 而是具有隨規模增加而回報提升的特性(increasing returns to scale) 。
算法進步強烈依賴于算力規模與參考基線
算法進步可能主要由算力提升所驅動
本文提出一個疑問:此前將算法進步與時間掛鉤的說法 , 是否其實是由算力投入的持續增長所驅動?
已有估計表明 , 前沿模型的計算預算正以每年 4.2 倍的速度呈指數增長 。 因此 , 隨著算力預算呈指數級提升 , 算法進步的速率可能更多是受這一規律性的算力擴張所推動 , 而不是源于不斷涌現的算法創新 。
本文發現:在 2017–2025 年間 , 幾乎所有可解釋的算法進步都來自兩項規模依賴型的創新:從 LSTM 換成 Transformer , 以及從 Kaplan 換成 Chinchilla 的訓練策略 。 其他所有算法改進加起來只占很小一部分 。
在總計 21400 倍(相對于 LSTM 模型)的性能提升中 , 本文發現 846 倍的提升是通過從 LSTM 模型轉向 Kaplan Transformer 模型實現的 , 而近 10 倍的提升則歸功于 Chinchilla 調整訓練策略 。 這兩項創新共同構成了總相對效率提升的 91% 。

算法進步的速度 , 取決于你拿誰當對照組
【MIT最新發現:這十年,算法進步被高估了】如果算法變得更強 , 是不是意味著進步更快 , 其實這完全取決于你選誰來當參照物 。 換個參照物 , 算法進步的速度立刻就變了 。
因為有些算法改進是規模依賴型(scale-dependent) 的:在大模型、大算力下提升巨大;但在小模型、小算力下幾乎沒作用 。
這導致一個有趣現象:如果你用 LSTM 當參照:Transformer 系列(尤其是更大模型)會顯得算法進步是指數增長的(論文測到一年增長率大約 63% , 非常快);但如果你用 Transformer 自己當參照 , 隨著規模變大 , 你只看到算法只比以前好 2 倍 , 幾乎沒增長 。
也就是說:換個對照組 , 算法進步就從指數增長變成增長幅度很少 。


    推薦閱讀