英偉達新研究：小模型才是智能體的未來

2026-04-26 人工智能 ai 阿里巴巴界面新聞顏勁良

文章圖片

文章圖片

文章圖片

文章圖片

henry 發自凹非寺
量子位 | 公眾號 QbitAI
大模型OUT ，小模型才是智能體的未來！
這可不是標題黨，而是英偉達最新論文觀點：
在Agent任務中，大語言模型經常處理重復、專業化的子任務，這讓它們消耗大量計算資源，且成本高、效率低、靈活性差。
相比之下，小語言模型則能在性能夠用的前提下，讓Agent任務的執行變得更加經濟靈活。

網友的實測也印證了英偉達的觀點：當6.7B的Toolformer學會調用API后，其性能超越了175B的GPT-3 。
7B參數的DeepSeek-R1-Distill推理表現也已勝過Claude3.5和GPT-4o 。

那么，小模型是如何“四兩撥千斤” ，放倒大模型的？
針對硬件與任務的優化總的來說，小模型通過優化硬件資源和Agent任務設計兩個方面來更高效地執行Agent任務。
首先是針對GPU資源和調度的優化。
由于小模型“體積”小巧的獨特優勢，它們可以在GPU上高效共享資源，其可在并行運行多個工作負載的同時保持性能隔離。
相應的，小巧的體積還帶來了更低的顯存占用，從而使得超分配機制得以可能，進一步提升并發能力。
此外， GPU資源還能根據運行需求靈活劃分，實現異構負載的彈性調度和整體資源優化。
而在GPU調度中，通過優先調度小模型的低延遲請求，同時預留部分資源應對偶發的大模型調用，就能實現更優的整體吞吐與成本控制。

其次是針對特定任務的模型部署。
在傳統的Agent任務場景中， Agent依賴大模型完成工具調用、任務拆解、流程控制和推理規劃等操作。
然而就像網友提到的， Agent任務往往是重復性的、可預測的、范圍明確的。譬如，幫我“總結這份文檔，提取這份信息，編寫這份模板，調用這個工具” ，這些最大公約數需求最常被拉起。
因此，在大部分需求中，往往不需要一個單一的大模型來執行簡單重復的任務，而是需要為每個子任務選擇合適的工具。

基于此，英偉達指出，與其讓花費高企的通用大模型處理這些常見的任務，不如讓一個個經過專業微調的小模型執行每個子任務。

這樣一來，不僅可以避免Agent任務中，大模型“高射炮打蚊子”帶來的資源浪費，還可以有效地降低推理成本。
舉例來說，運行一個70億參數的小模型做推理，要比用700–1750億參數的大模型便宜10–30倍。
同時，由于小模型計算資源占用低，因而也更適合在本地或邊緣部署，而大模型則更多地依賴大量GPU的并行計算，依賴中心化的云計算供應商，需要花費更多地計算成本。
此外，大模型還有“大船掉頭難”的毛病，不僅預訓練和微調成本遠高于小模型，難以快速適配新需求或新規則，而且還無法充分利用海量參數（一次推理只激活少量參數）。
與之相對，小模型則可以在較小數據量和資源條件下完成高效微調，迭代更快，同時還能憑借更合理的模型結構和定制設計，帶來更高的參數利用率。

不過，也有一些研究者提出了反對的聲音。
例如，就有研究者認為大模型因其規模龐大而具有更好的通用理解能力，即使在專業的任務中也表現更佳。
針對這一疑問，英偉達表示，這種觀點忽略了小模型的靈活性，小模型可以通過輕松的微調來達到所需的可靠性水平。
同時，先進的Agent系統會將復雜問題分解為簡單的子任務，這使得大模型的通用抽象理解能力變得不那么重要。
此外，還有研究者對小模型相對大模型的經濟性提出了質疑：
小模型雖然單次推理成本低，但當考慮大規模部署時，規模經濟（大量使用大模型分攤成本）可能比小模型的節省更重要。
對此，英偉達表示了部分地認同，但同時也指出：
隨著推理調度優化和大型推理系統模塊化的發展，單體計算集群的靈活性大幅提升，同時基礎設施搭建成本因技術進步持續下降。
最后，也是爭議的核心——雖然小模型部署門檻正在下降，但大模型已經占先，行業慣性讓創新仍集中在大模型，轉型未必會真的降本增效。
這就引出了小模型在實際落地中要面臨的挑戰。
從大模型到小模型英偉達表示，小模型雖然以其高效、經濟的特點在特定任務中表現出了不錯的潛力，但仍然需面臨以下挑戰：
基礎設施適配：當前大部分GPU架構是為大模型優化設計，尚不完全適配多模型并發的微服務架構。市場認知度低：小模型缺乏像大模型那樣的品牌和話題熱度，推廣和教育成本較高。評估標準缺失：通用基準測試往往無法全面衡量小模型在任務中的實際表現。由此看來，一種折衷的手段就變得未嘗不可：
結合不同規模和能力的多種語言模型，與查詢復雜度級別相匹配，為小模型的采用提供自然的集成路徑。
為此，英偉達給出了將大模型轉換為小模型的方法：

首先，通過數據采集記錄當前大模型的運行數據、資源占用和請求特征，然后對數據進行脫敏處理，只保留使用模式。
接著，根據請求類型和任務結構對工作負載進行聚類，識別常見子任務。
隨后，選擇合適的小模型，并匹配相應的GPU分配策略。在定制數據上完成模型微調后，將其部署上線服務。
最后，構建持續反饋閉環機制，不斷優化模型性能和資源利用率，實現迭代提升。
小模型vs大模型圍繞英偉達的這篇論文，網友們針對“小模型才是 Agentic AI的未來”這一觀點展開了討論。
例如，就有網友分享了自己在Amazon處理產品退款的心得，他認為在這種簡單的任務中，使用小模型比使用大型語言模型更具成本效益。
就像論文里指出的，大模型在處理簡單任務時，其強大的通用性往往會被浪費，因此，使用小模型更為合適。

不過，也有網友提出了反對意見。
比如，小模型因其專業性在面對偏離預設流程的情況時，可能不夠魯棒。同時，為了應對這些corner case ，設計者還需要預先考慮更多的變數，而大模型在應對復雜情況時可能更具適應性。

說起來，小模型就像Unix“一個程序只做好一件事”（Do One Thing and Do It Well）的設計哲學，把復雜系統（大模型）拆成小、專一、可組合的模塊（小模型），每個模塊做好一件事，然后讓它們協同完成更大任務。
但與此同時，系統也需要在功能多樣性和操作復雜度之間作出取舍。
一方面，小模型越多，那么理論上其可以完成的任務就越豐富（功能多樣性高）。
另一方面，功能越多，用戶和系統操作的復雜度也會隨之增加，容易導致難以理解、難以維護或錯誤頻發，到頭來可能還不如一個通用的大模型方便。
到底是“少而精”的小模型更靠譜，還是“大而全”的大模型更穩？你怎么看？
參考鏈接：[1
https://x.com/ihteshamit/status/1957089843382829262[2
https://cobusgreyling.medium.com/nvidia-says-small-language-models-are-the-future-of-Agentic-ai-f1f7289d9565[3
https://www.theriseunion.com/en/blog/Small-LLMs-are-future-of-AgenticAI.html[4
https://arxiv.org/abs/2506.02153

— 完 —
量子位 QbitAI · 頭條號簽約
【英偉達新研究：小模型才是智能體的未來】關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：4o-mini華人領隊也離職了，這次不怪小扎

下一篇：To B 領域第一批吃 AI 螃蟹的人，復盤了「AI落地」的真相和方法論