清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體

清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體

文章圖片

清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體

文章圖片

清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體

文章圖片

清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體

文章圖片

清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體

文章圖片

清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體

文章圖片

清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體

文章圖片

清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體

文章圖片

清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體

文章圖片

清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體

文章圖片

清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體

文章圖片

清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體
編輯:桃子 好困
【新智元導讀】大模型再強 , 也躲不過上下文限制的「蕉綠」!MIT等團隊推出的一套組合拳——TIM和TIMRUN , 輕松突破token天花板 , 讓8b小模型也能實現大殺四方 。


一直以來 , 上下文限制 , 如同「緊箍咒」限制了模型的潛能 。
如今 , 一種全新突破性方案已經到來 。
來自MIT、普林斯頓、特拉維夫大學等機構聯手 , 重磅推出「線程推理模型」(TIM)——一種專為遞歸和分解式問題求解而訓練的大模型 。

論文地址:https://arxiv.org/pdf/2507.16784
與此同時 , 研究團隊還提出了「推理運行時」引擎TIMRUN , 讓長程推理成為現實 。
具體來說 , 他們將自然語言建模為「推理樹」 , 由任務、思考、遞歸子任務、結論組成 , 實現了多軌并行推理 。
此時 , 樹的「長度」和「深度」成為了度量的標準 。
在生成過程中 , TIMRUN就像一個內存管家 , 只保留當前最需要的token鍵/值狀態 , 可以反復利用推理中的位置編碼和GPU內存頁 。
TIM+TIMRUN這套組合拳 , 讓推理效率直接飆升 。
實驗結果顯示 , 即便在90%的內存占用下 , TIM能實現高吞吐性能 。
同時 , 在數學任務中 , TIM可以提供給精準推理 , 信息檢索挑戰應對自如 , 能輕松完成需要長程推理和跨多步工具調用的任務 。



LLM腦容量不夠?剪掉無用記憶


大模型的本質 , 是token序列生成器 。
不論是循環神經網絡(RNN) , 還是Transformer , 都受限于一個致命的問題:上下文窗口 。
比如 , Deepseek R1標配的128k上下文 , 在現實中 , 一個復雜任務動不動就超出了這一上限 。
若是LLM再從外部一邊調用工具 , 一邊推理 , token只會越跑越多 , 最終導致GPU內存爆表 。
更別提 , 傳統的「線性序列」方式 , 全部記住了所有上下文 , 內容占用更高 。
為了破解記憶瓶頸 , 開發者們通常將復雜工作流 , 拆分為多個模塊 , 然后再交由AI智能體分工協作 。
然而在實操中 , 「多智能體架構」出現了協調難、延遲高等問題 。
在研究人員看來 , 推理并非是一個線性的過程 , 而是一種遞歸結構化的 。
這一過程 , 就如同編碼任務中人類大腦的一樣 , 我們會「選擇性記憶」 , 在進行下一任務前 , 只保留關鍵信息 , 其余清空才能專心搞定當前任務 。
基于這些觀察 , 研究團隊將推理軌跡建模為一個「遞歸的子任務樹」 。
推理時 , AI只需關注當前子任務 , 剪掉無關的「枝葉」 , 大幅減少內存占用 , 如下圖1所示 。

通過剪枝無關子任務 , 模型只需聚焦于一個選擇性的「工作記憶」
如前所述 , 論文中 , 研究團隊提出的「線程推理模型」(TIM)和TIMRUN推理引擎 , 徹底顛覆了傳統LLM的推理方式 。
TIM就是一個會拆解任務的超級AI , 能夠輕松識別分解出的子任務、工具參數以及遞歸的層級關系 。
【清華校友出手8B硬剛GPT-4o!單一模型無限工具調用,終結多智能體】TIMRUN是TIM的「最佳拍檔」 , 專為推理樹優化內存管理 , 兩者結合實現了以下三大突破:

  • 支持幾乎無限的長程推理 , 突破輸出token上限
  • 在復雜任務中實現高效的單模型推理 , 具備更高解碼吞吐量和內存效率
  • 開啟最簡化的智能體構建方式:給TIM提供工具包 , 啟動一次推理 , 即可獲得具備智能體特性的推理軌跡 。
接下來 , 具體看看這套組合拳如何實現的?



TIM:8b訓練 , 復雜任務切成塊


線程推理模型(TIM) , 直觀可以理解為 , 一顆推理樹有不同分支(子任務) 。
它采用了Thread-2框架 , 將推理過程建模為一個「任務樹」 , 也就是說 , 推理的基本單元是——任務 。
每個任務由四個部分組成:思考、工具調用、子任務、結論 。
與上一代Thread推理框架相比 , Thread-2做出了多項改進 。
它能夠訪問工作記憶 , 包含系統提示、用戶輸入 , 以及尚未被剪枝的任務 , 讓LLM實現端到端推理 , 一次調用就能完成推理
同時 , Thread-2還采用了一個固定大小的子任務「堆棧」結構來執行剪枝 , 即動態清理無關子任務 , 只保留關鍵信息 , 讓內存占用大幅降低 。
此外 , 其推理結果可以直接高效地解碼為JSON字典(JSON dictionary) , 告別了復雜的符號操作 。
如下實踐中 , 研究團隊以如下模式進行JSON解碼 , 并結合搜索和網頁閱讀工具作為示例 。
需要注意的是 , 多個工具調用可以在一次解碼過程中處理 。

傳統方法中 , 一個推理過程需要20次工具調用 , 可能要重復計費20次初始token 。
而在TIM生成過程中 , 它將將工具響應以JSON字典字符串形式返回到「推理引擎」 , 在轉化為新的輸入token批擴展KV緩存 。
這樣一來 , 就實現了模型一次調用 , 即可調用多個工具 , 避免了延遲和開銷 。

訓練細節


研究中 , 團隊對Qwen3-8b進行了后訓練 , 不用復雜提示工程 , 最終生成Thread-2推理結構 。
為此 , 他們打造了一個「合成訓練集」 , 覆蓋了2萬條openr1-math-220k數學問題、2萬條研究類問題、6千條ToolBench問題 。
基于以上數據訓練后 , 團隊又在openR1-math-220k上 , 利用GRPO對模型進行了強化學習 。
訓練完成后 , 就得到了「線程推理模型」(TIM) 。



TIMRUN:保留關鍵信息 , 復用GPU


TIM結構化輸出確實能夠大幅提升推理性能 , 另一個問題來了——如何實現部署?
為此 , 研究團隊為TIM開發了一個配套的引擎TIMRUN 。
為了實現超過輸出限制的長時推理 , TIMRUN必須支持在輸出生成過程中 , 復用GPU內存和位置嵌入 。
那么 , 研究中它是如何做到的呢?

子任務剪枝


TIMRUN的核心絕技之一 , 就是子任務剪枝(Subtask Pruning) 。
它的邏輯非常簡單粗暴 , 在推理時 , 保留當前任務需要的關鍵信息 , 把不必要的任務細節直接丟掉 。
這個靈感 , 來自一個經典的思想實驗——怎么把大象裝進冰箱?只需三步 , 開門、塞進去、關門 。

為了實現這個設計 , TIMRUN維護了一個剪枝緩沖區 , 即一個棧 。
它用來臨時緩存少量可剪枝的子任務 , 只保留足夠的冗余 , 以確保信息流的無損傳遞 。
子任務剪枝的過程 , 如下圖3所示 。
具體來說 , 當TIM在某個任務中解碼時 , TIMRUN會動態地把已完成子任務對應的token的KV狀態從GPU內存中清除 。
同時 , TIMRUN還引入了「分頁注意力」 , 把KV緩存分塊處理 , 分頁大小為1 , 剪枝時只針對單個token序列 , 推理則由FlashInfer加速 。


端到端多步工具調用


TIMRUN的解決方案是:在運行時直接發起工具調用 , 而不是把工具參數回傳給客戶端 , 如下圖4所示 。

這種方式大大減少了模塊之間的通信 , 讓智能體的開發和部署更簡單 。
關鍵在于 , 推理鏈中的每個token只會傳輸到 TIMRUN 一次 , 從而徹底消除了冗余的token傳輸 , 并最大限度地減少了通信開銷 。



實驗結果


總的來說 , 研究人員觀察到的關鍵結果有三個:
  • 維持工作記憶 , 而非計算全部上下文Token的注意力權重 , 并不會損害推理準確性 。
  • 剪除不相關上下文 , 可以提升語言模型的推理準確性并減少幻覺現象 。
  • 面對密集的內存訪問與操作 , TIMRUN可以保持極高的吞吐量 。

推理


在考驗STEM領域知識與推理能力的評測中 , TIM模型僅憑8B的參數規模就取得了卓越的成績 。
  • MATH500最高69.6%(略遜Llama 3.1 405B的73.8% , 但超越Llama 3.1 70B的65%)
  • MMLU-STEM500最高88.4%
  • AMC 2022最高60.5%
  • AMC 2023最高80.0%
  • AIME 2024最高46.7%(略遜GPT-4.1的48.1% , 但超越GPT-4.5的36.7%)
  • GPQADiamond最高48.5%(略遜Llama 3.1 405B的51.1% , 但超越Gemma 3 27B的42.4%)



研究


相比起傳統的AI智能體工作流 , TIMRUN可以將多跳工具的使用 , 作為一種無縫的、端到端的大語言模型API調用來處理 , 無需依賴任何智能體框架或復雜提示詞 。
Datacommons QA

Datacommons QA考驗的是模型在多跳信息檢索、工具響應處理以及推理方面的能力 。
TIM僅需一條簡潔的系統提示詞和關于工具的基本信息 , 包括工具描述、輸入參數和輸出格式 , 便可對訓練期間未曾遇到的新任務 , 表現出良好的泛化能力 。
與基線方法相比 , 它在三個關鍵領域展現出更高的效率:
  • 無需精心構建的少樣本學習示例和任務特定的提示詞 , 一條簡單的系統提示詞便足以獲得優異性能 。
  • 無需長達4000 token的提示詞 , 極大地降低了生成過程中的計算開銷 。
  • 在子任務完成并從剪枝緩沖區移除時會自動處理工具響應 , 開發者便無需再為處理工具響應而開發定制邏輯 。

Browsecomp

Browsecomp是一項針對深度研究型智能體的挑戰性基準測試 。
要回答這里的問題 , 模型需要對輸入進行分解 , 并使用工具從互聯網篩選和檢索相關信息;有時 , 還需深入探究特定網頁的細節 , 并依據給定條件對發現進行驗證 。
在沒有任何智能體設計的情況下 , TIM-8b的表現便已經優于具備瀏覽功能的GPT-4o , 而Tim-large更是取得了與構建在Deepseek R1上的ReACT智能體相媲美的性能 。
這些發現印證了研究人員的假設:一個能通過遞歸分解子任務和剪枝其工作記憶來自主管理上下文的模型 , 其性能可以匹及采用更復雜實現的智能體 。


效率與可擴展性


吞吐量提升

上下文剪枝與注意力機制之間存在一種權衡關系——剪枝上下文雖能加速注意力計算 , 卻也引入了額外的內存開銷 。
實驗結果表明 , TIMRUN系統的性能優于樸素的內存操作實現以及強大的SGLang基線 。

更高效的工具使用

隨著工具調用次數的增加 , SGLang的吞吐量因推理步驟和工具響應所產生的增量上下文及token緩存日益復雜而迅速下降 。
相比之下 , 得益于自動化的上下文管理機制 , 即便工具使用規模擴大 , TIMRUN仍能保持相對穩定的吞吐量 。
這使得TIM-8b模型無需任何智能體框架或針對特定任務的后訓練 , 即可在BrowseComp基準測試上取得優異性能 。
尤其是 , 借助子任務剪枝 , TIMRUN可以在單次推理中支持超過30次的工具調用 。




作者介紹



論文一作羅鴻胤是麻省理工學院計算機科學與人工智能實驗室(MIT CSAIL)的研究員 , 也是Subconscious Systems的聯合創始人兼CTO 。
他于2022年獲得麻省理工學院電子工程與計算機科學(EECS)博士學位 , 師從James Glass教授 。 并在此前獲得清華大學工學學士學位 , 師從劉知遠教授 。
羅鴻胤的研究方向包括構建高效、透明、具備復雜推理能力的語言模型 , 以及支持智能體長期推理和工具調用的基礎設施 。
他的代表性工作包括開發TIM模型(Thread Inference Model)和TIMRUN推理系統 , 這一組合實現了可擴展、結構化、遞歸的智能體推理能力 。
其中 , 全新推理框架突破了語言模型在傳統上下文長度上的限制 , 顯著提升了長周期智能體的吞吐量與推理效果 , 并大幅降低了上下文工程的開發和運行成本 。
參考資料:
https://arxiv.org/pdf/2507.16784

    推薦閱讀