蘋果AI選Mamba:Agent任務比Transformer更好

蘋果AI選Mamba:Agent任務比Transformer更好

文章圖片

蘋果AI選Mamba:Agent任務比Transformer更好

文章圖片

蘋果AI選Mamba:Agent任務比Transformer更好

文章圖片

蘋果AI選Mamba:Agent任務比Transformer更好

文章圖片


聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
都說蘋果AI慢半拍 , 沒想到新研究直接在Transformer頭上動土 。 (doge)
「Mamba+工具」 , 在Agent場景更能打!

在最新論文《To Infinity and Beyond》中 , 研究團隊發現:
在長任務、多交互的Agent式任務中 , 基于SSM架構(狀態空間模型)的模型 , 比如Mamba , 在效率與泛化能力上 , 展現出超越Transformer的潛力 。

Mamba一作表示:


超越Transformer , 怎么說?
Transformer的長篇累牘問題先說說Transformer的“富貴病” 。
Transformer確實很聰明 , 靠自注意力機制能夠同時關注輸入序列中所有詞語之間的關聯 , 比如閱讀文章時可以快速建立首尾關鍵信息的聯系 。
但這種能力的實現需要較高的計算成本 , 隨著輸入序列長度的增加 , 其計算量會呈平方級增長 。
例如 , 輸入1000個詞時 , 需要處理1000×1000=100萬次詞對關系;
要是處理有上萬個詞的長文檔 , 計算量會達到億級 , 這對普通GPU來說是不小的負擔 。

而這種計算成本過高的問題還會引發連鎖反應:
首先是處理延遲顯著增加 。 在長序列任務中 , 模型的響應速度會大幅下降; 其次 , 在Agent類任務中表現不佳 。 Agent任務通常需要動態決策與迭代優化的能力 , 而Transformer在每一步操作中都需重新計算全局注意力 , 這就會導致整體效率偏低 , 難以滿足此類任務對實時性和靈活性的需求 。相比之下 , Mamba則采用了更為輕量化的設計思路 。
「Mamba+工具」更高效作為狀態空間模型(SSM)的一種 , Mamba不依賴全局注意力機制 , 而是通過持續更新的內部狀態來理解輸入信息 。
有點像人寫流水賬 , 只記最近進展 , 不翻舊賬 。
這種機制帶來了三項顯著優勢:
計算量隨序列長度呈線性增長 例如處理1000個詞僅需對應數量級的計算 , 遠低于Transformer的消耗; 支持流式處理 能夠邊接收輸入邊進行計算 , 無需等待完整序列加載完畢; 內存占用保持穩定 不會隨序列長度增加而顯著上升 , 在效率方面表現突出 。
不過 , Mamba也有個明顯局限:內部狀態的存儲容量有限 , 在處理超長序列任務時 , 早期信息容易被后續輸入覆蓋 , 導致模型對前文關鍵信息的保留能力較弱 。
針對這一問題 , 蘋果團隊提出了新方案——通過引入外部工具擴展模型的信息處理能力 。
比如算數學題時用指針工具記數字、存進位;修代碼時用文件查看工具反復讀代碼、用運行工具測報錯……
這些工具可以在任務執行過程中提供輔助 , 相當給模型提供了可動態調用的外部存儲和交互接口 。

這樣做的結果就是 , 引入工具后Mamba的性能得到顯著提升:
在多位數加法任務中 , 配備指針工具的Mamba展現出良好的泛化能力 , 經過5位數加法訓練后 , 能夠穩定處理1000位數的計算 , 準確率接近100% , 而Transformer在處理20位數時已出現明顯誤差;
在代碼調試任務中 , 讓Mamba模擬交互式調試流程(查看文件、局部修改、執行驗證的迭代方式) , 面對復雜度高于訓練集的代碼庫 , 其正確率顯著高于Transformer;
在邏輯推理及漢諾塔等需要分步規劃的任務中 , 結合工具的Mamba能夠應對更復雜的問題場景 , Transformer則要么算得慢 , 要么直接卡殼……

可以看出 , Transformer聰明但慢 , 做事情講究從頭到尾一步到位 , 遇上需要反復調整的Agent式任務 , 就顯得又貴又笨重;
Mamba反應快但記性差 , 但裝上外置大腦后補足記憶短板后 , 效率嘎嘎提升 。
這么一看 , 「Mamba+工具」的組合可能真要在Agent場景下搶Transformer的風頭了 。
論文地址:https://arxiv.org/pdf/2510.14826參考鏈接:https://x.com/_albertgu/status/1980287154883358864
— 完 —
量子位 QbitAI · 頭條號簽約
【蘋果AI選Mamba:Agent任務比Transformer更好】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀