蘋果AI選Mamba：Agent任務比Transformer更好

2026-04-26 ai 蘋果人工智能

文章圖片

文章圖片

文章圖片

文章圖片

聞樂發自凹非寺
量子位 | 公眾號 QbitAI
都說蘋果AI慢半拍，沒想到新研究直接在Transformer頭上動土。（doge）
「Mamba+工具」，在Agent場景更能打！

在最新論文《To Infinity and Beyond》中，研究團隊發現：
在長任務、多交互的Agent式任務中，基于SSM架構（狀態空間模型）的模型，比如Mamba ，在效率與泛化能力上，展現出超越Transformer的潛力。

Mamba一作表示：

超越Transformer ，怎么說？
Transformer的長篇累牘問題先說說Transformer的“富貴病” 。
Transformer確實很聰明，靠自注意力機制能夠同時關注輸入序列中所有詞語之間的關聯，比如閱讀文章時可以快速建立首尾關鍵信息的聯系。
但這種能力的實現需要較高的計算成本，隨著輸入序列長度的增加，其計算量會呈平方級增長。
例如，輸入1000個詞時，需要處理1000×1000=100萬次詞對關系；
要是處理有上萬個詞的長文檔，計算量會達到億級，這對普通GPU來說是不小的負擔。

而這種計算成本過高的問題還會引發連鎖反應：
首先是處理延遲顯著增加。在長序列任務中，模型的響應速度會大幅下降；其次，在Agent類任務中表現不佳。 Agent任務通常需要動態決策與迭代優化的能力，而Transformer在每一步操作中都需重新計算全局注意力，這就會導致整體效率偏低，難以滿足此類任務對實時性和靈活性的需求。相比之下， Mamba則采用了更為輕量化的設計思路。
「Mamba+工具」更高效作為狀態空間模型（SSM）的一種， Mamba不依賴全局注意力機制，而是通過持續更新的內部狀態來理解輸入信息。
有點像人寫流水賬，只記最近進展，不翻舊賬。
這種機制帶來了三項顯著優勢：
計算量隨序列長度呈線性增長例如處理1000個詞僅需對應數量級的計算，遠低于Transformer的消耗；支持流式處理能夠邊接收輸入邊進行計算，無需等待完整序列加載完畢；內存占用保持穩定不會隨序列長度增加而顯著上升，在效率方面表現突出。
不過， Mamba也有個明顯局限：內部狀態的存儲容量有限，在處理超長序列任務時，早期信息容易被后續輸入覆蓋，導致模型對前文關鍵信息的保留能力較弱。
針對這一問題，蘋果團隊提出了新方案——通過引入外部工具擴展模型的信息處理能力。
比如算數學題時用指針工具記數字、存進位；修代碼時用文件查看工具反復讀代碼、用運行工具測報錯……
這些工具可以在任務執行過程中提供輔助，相當給模型提供了可動態調用的外部存儲和交互接口。

這樣做的結果就是，引入工具后Mamba的性能得到顯著提升：
在多位數加法任務中，配備指針工具的Mamba展現出良好的泛化能力，經過5位數加法訓練后，能夠穩定處理1000位數的計算，準確率接近100% ，而Transformer在處理20位數時已出現明顯誤差；
在代碼調試任務中，讓Mamba模擬交互式調試流程（查看文件、局部修改、執行驗證的迭代方式），面對復雜度高于訓練集的代碼庫，其正確率顯著高于Transformer；
在邏輯推理及漢諾塔等需要分步規劃的任務中，結合工具的Mamba能夠應對更復雜的問題場景， Transformer則要么算得慢，要么直接卡殼……

可以看出， Transformer聰明但慢，做事情講究從頭到尾一步到位，遇上需要反復調整的Agent式任務，就顯得又貴又笨重；
Mamba反應快但記性差，但裝上外置大腦后補足記憶短板后，效率嘎嘎提升。
這么一看，「Mamba+工具」的組合可能真要在Agent場景下搶Transformer的風頭了。
論文地址：https://arxiv.org/pdf/2510.14826參考鏈接：https://x.com/_albertgu/status/1980287154883358864
— 完 —
量子位 QbitAI · 頭條號簽約
【蘋果AI選Mamba：Agent任務比Transformer更好】關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：語音助手「智商滑鐵盧」：當GPT開口說話，準確率從74.8%跌到6.1%

下一篇：ChatGPT也遭殃，亞馬遜服務器故障，半個互聯網都崩了