
文章圖片

作者:毛爍
隨著AI發展到不同階段 , 模型能力的焦點經歷了多次轉移——從早期的模式識別(pattern recognition)到自然語言理解(NLU) , 再到生成式 AI(Generative AI) 。
然而 , 當 AI 模型真正進入生產系統、特別是面向企業級業務流程與物理環境執行時 , 單純的“感知”與“生成”便顯得“力不從心” 。
這其中 , 推理能力正成為智能體落地的決定性因素 。
Multi-step、Domain、Throughput、Physics:智能體落地的“四道關隘”
從產業層面看 , 目前智能體落地存在幾個結構性挑戰 。
其一是 , 多步驟任務執行(multi-step task execution)的復雜性 。 在企業內部 , 一個簡單的業務目標往往包含跨系統、跨數據源的“調用鏈” , 這意味著智能體須具備規劃能力(task planning) , 且能夠生成并調整執行計劃 。
然而 , 此前的AI模型(或者說chatbot類能力的模型) , 在這方面很容易出現邏輯斷裂 , 尤其是在長推理鏈(long chain-of-thought)下 , 容易丟失上下文 。
其二是 , 垂直領域適配不足 。 企業在應用中 , 其知識庫或知識中臺 , 往往充滿了行業特定的術語和流程約束 , 但如果不進行針對領域的微調 , 模型往往很難在高精度、高合規的場景中發揮作用 。
其三是 , 推理效率與成本的平衡 。 在具體場景中 , 無論是在呼叫中心還是工業現場 , 延遲和token吞吐量(inference throughput)都是部署AI成敗的關鍵 。 推理鏈越長 , 計算成本與模型響應的壓力越大 。
其四 , 在物理世界場景中(如機器人、自動駕駛、工業監控) , 僅依賴感知輸出遠遠不夠 。 Agents需要結構化的物理推理(structured physical reasoning) , 同時理解客體持久性(object permanence)、物理規律(physics laws)和時空對齊(spatio-temporal alignment) , 才能將感知結果轉化為可執行動作 。
為解決上述挑戰 , NVIDIA于SIGGRAPH上宣布擴展兩類面向推理任務的模型體系——NVIDIA Nemotron 與 NVIDIA Cosmos 。 前者聚焦于信息空間中多步驟任務鏈的規劃與執行 , 后者則專注于物理空間中的時空推理與物理常識建模 。 二者協同 , 構成了面向智能體應用的推理能力底座 , 為跨領域任務執行提供了統一的技術支撐 。 (信息來源:https://blogs.nvidia.cn/blog/nemotron-cosmos-reasoning-enterprise-physical-ai/)
NVIDIA Nemotron:從輕量級到高精度全覆蓋 , Llama Super v1.5 打破“精度-成本”死循環
在模型能力與效率方面 , NVIDIA Nemotron 系列(后簡稱“Nemotron”)覆蓋了從輕量化到高精度的大范圍需求 。
其中 , Nemotron Nano 2 面向低延遲與高性價比的推理場景 , 而基于Llama架構深度優化的 Nemotron Super v1.5 , 則在同等規模模型中展現出更高的精度 , 尤其在科學推理、數學、編碼、工具調用、指令遵循和對話等領域表現突出 。
在構建智能體推理能力底座的同時 , NVIDIA 也在模型精度與推理效率層面進行了系統性優化 , 形成了從模型體系到具體實現的全鏈路提升 。
在 AI 模型競爭激烈的“精度-成本”賽道上 , NVIDIA Llama Nemotron Super v1.5的表現格外亮眼 。
截取來源:NVIDIA官方資料
從上圖的性能數據看 , 把NVIDIA Llama Nemotron Super v1.5和 Leading 70B、32B 等模型一起對比 , 前者實現了約65% 的平均準確率(基于 AIME 24、GPQA Diamond 等多個基準測試的均值) , 搭配 100 美元上下每次的測試成本 , 清晰展現出其在 “更高精度” 與 “更低推理成本” 間的巧妙平衡 。
然而 , NVIDIA Llama Nemotron Super v1.5的價值 , 卻遠不止停在基準測試里 。 在實際應用中 , 還能助力 AI智能體更高效地推理 , 輔助做出更“明智”的決策 , 獨立應對復雜任務挑戰 。
更值一題的是 , NVIDIA Llama Nemotron Super v1.5還以 NVFP4 格式適配硬件 , 當其跑在 NVIDIA B200 GPU 上時 , 吞吐量比起在 H100 GPU 上 , 直接提升了 6 倍。
這意味著 , 在同樣的計算資源下 , 模型能夠處理更多并發任務 , 大幅降低了模型推理的單位成本 。 這種提升對于金融風控、在線客服、代碼研發等高并發場景的業務而言 , 可以顯著改善業務延遲問題 , 并降低推理成本 。
為了優化性能與成本平衡 , Nemotron引入了獨特的可配置思考預算機制 。 這一機制為開發者提供靈活方案 , 允許其根據任務需求設定推理 token上限 , 在需要深度推理的復雜場景中釋放更長的思維鏈(COT) , 而在高頻交互任務中則可限制 token長度 , 以降低延遲與計算開銷 。
這種可配置的推理深度在企業環境中尤為重要 , 因為其能精準匹配不同任務的價值密度與時效性要求 。 借助這些新模型 , AI智能體能夠提高思考深度和工作效率 , 從而探索更廣泛的選項、加速研究并在設定時限內實現更優的效果 。
此外 , 為確保推理的實時性和知識準確性 , 信息檢索增強生成(RAG Retrieval-Augmented Generation)成為了 Nemotron 的另一核心能力 。
通過與Llama 3.2 NeMo Retriever嵌入模型的深度集成 , Nemotron能夠在推理過程中動態檢索并引入不同來源的最新相關數據 , 從而有效避免“知識時效性”缺失的問題 。
據了解 , 該能力在ViDoRe V1、ViDoRe V2 和 MTEB VisualDocumentRetrieval的視覺文檔檢索排行榜中均取得領先成績 , 為企業級知識密集型任務提供了穩定可靠的保障 。
截取來源:NVIDIA官方資料
在數據基礎方面 , NVIDIA也同步更新了首個開放VLM 訓練數據集 Llama Nemotron VLM 數據集 v1 , 其中包含 300 萬條光學字符識別(OCR)、視覺問答(QA)與字幕數據樣本 。
這些豐富的語料基礎 , 能支持Llama 3.1 Nemotron Nano VL 8B 模型 , 結合 NeMo 工具鏈與行業 Blueprint , 可賦能企業構建高度定制化且性能卓越的Agentic AI , 并為更廣泛的多模態推理能力提供強大的支持 。
在部署與可訪問性方面 , Nemotron全面支持 NVIDIA NIM部署環境 , 可實現從本地 GPU 集群到主流云平臺(如:Amazon Bedrock、Amazon SageMaker AI、Azure AI Foundry、Oracle Data Science Platform 和 Google Vertex AI)的無縫遷移 。
這種云原生部署的模式 , 能顯著降低企業引入和管理推理型AI的門檻 , 也為采用多云策略的企業提供了更大的靈活性和數據主權保障 。
從感知到執行 , Cosmos Reason重構 AI對物理世界的推理能力
與專注于信息推理的Nemotron不同 , Cosmos Reason 針對的是物理世界中的結構化推理(structured reasoning)問題 。
截取來源:NVIDIA官方資料
作為一款70億參數的視覺語言模型 , Cosmos Reason采用了“System 2 推理”(System 2 Reasoning) , 將感知輸入與物理常識、任務規劃結合 , 實現從語言指令到物理執行的閉環 。
事實上 , “System 2 推理”來源于認知心理學中的雙系統理論 , 其代表了一種深思熟慮、有意識且需要付出努力的思維模式 , 這與快速“System 1 推理”相對 。 在 AI模型中 , 采用 System 2 意味著模型能夠生成中間思維步驟 , 進行邏輯推理和任務規劃 , 從而更穩健地完成復雜任務或響應指令 。
這種能力使得Cosmos Reason能夠更深入地理解、導航物理世界 , 是實現精密機器人規劃和智能決策的關鍵 。
在架構層面 , Cosmos Reason的特點在于其卓越的物理環境建模能力 。 Cosmos Reason不僅能“持久”地理解環境 , 即便在物體被遮擋或視角發生變化時 , 也能保持對物體狀態推理的一致性(客體持久性) 。
此外 , Cosmos Reason 還能運用物理規律 , 精確預測物體在不同條件下的運動軌跡;同時 , 還具備強大的時空對齊(spatio-temporal alignment)能力 , 能將時間信息與空間結構巧妙結合 , 從而用于更精準的規劃和決策 。
這種能力尤其適用于視覺到動作(vision-to-action)的多模態任務鏈 。 例如 , 在復雜的工業倉儲環境中 , 當智能體接到“搬運貨物到指定位置”的指令時 , Cosmos Reason便能夠識別貨物的精確位置和潛在的路徑障礙 , 還能深入考慮機械臂的實際動作可行性、預測其運動軌跡 , 并主動規避與人員或其他設備的潛在沖突 。
這種跨越感知、規劃和執行等多個環節的復雜推理鏈 , 是傳統視覺模型無法企及的 。
在整個AI模型生命周期中 , 尤其是在數據密集、耗時耗力的訓練與標注環節 , Cosmos Reason展現出其關鍵的創新點 。 其能智能地自動生成場景描述與行為注釋 , 這種“自動標注”(auto-annotation)能力 , 極大地減輕了人工數據處理的負擔 , 從而顯著加速了數據準備周期并降低了運營成本 。
其實 , Cosmos Reason 的訓練過程包括視覺預訓練、一般監督微調、物理 AI監督微調和物理 AI強化學習等階段 。 其數據集中存在自監督直觀物理 SFT 數據 , 這些數據在設計上自然以 MCQ(多項選擇題)格式存在 , 可擴展生成各種問題 。
這些能力不僅能直接推動模型開發的快速迭代 , 更關鍵的是 , 還能讓模型能更高效地從新數據中學習 , 顯著增強了模型在未知或少樣本場景下的泛化能力 , 對于面向復雜物理世界的AI系統而言 , 正是其得以快速部署并持續進行性能迭代的關鍵所在 。
【智能體認知體系“躍遷”,定義AI推理新范式】全域開花:Nemotron、Cosmos Reason加快重塑企業智能體與物理AI生態
在企業級場景中 , Nemotron正成為驅動AI智能體變革的核心引擎 。 以Zoom為例 , 其計劃將Nemotron推理模型與Zoom AI Companion深度融合 , 使智能體能夠更高效地輔助用戶決策 , 并管理覆蓋會議、聊天、文檔等核心協作場景的多步驟任務 。
CrowdStrike則在其Falcon平臺上測試Nemotron , 以強化Charlotte AI智能體的請求處理能力 。
而在需要復雜多步驟自動化操作的行業中 , 電信領域的Amdocs正利用Nemotron模型賦能其amAIz套件 , 支持護理、銷售、網絡與客戶支持等多樣化任務處理 。
值得注意的是 , Nemotron Nano 2憑借其高吞吐量表現 , 尤其受到安永(EY)的青睞 , 被用于支持大型企業的代理式AI應用 , 涵蓋稅務、風險管理、金融等對數據處理量要求極高的業務場景 。
同時 , NetApp正在測試Nemotron以實現智能搜索與業務數據分析 , DataRobot則將其引入Agent Workforce Platform , 實現端到端智能體生命周期管理 。
Tabnine在代碼生成領域同樣受益于Nemotron , 向開發者提供更精準的編碼建議與自動化能力 。
此外 , Automation Anywhere、CrewAI、Dataiku等代理式AI軟件廠商也已將Nemotron深度集成至其平臺 , 進一步擴展了生態版圖 。
在物理AI領域 , Cosmos Reason展現出卓越的感知與決策能力 , 并正被交通運輸、安全及AI智能等領域的領先企業廣泛采用 , 用于輔助駕駛、視頻分析、道路與工作場所安全等關鍵場景 。
Uber正在探索其如何分析智能汽車的行為 , 并通過后訓練總結視覺數據 , 解析行人穿越高速公路等復雜情況 , 從而執行質量分析并優化輔助駕駛行為 。
Cosmos Reason的優勢在于 , 它能充當智能汽車的“大腦” , 既能解讀復雜環境 , 也能將抽象指令分解為可執行任務 , 并利用常識應對陌生環境 。
在視頻智能領域 , Centific正測試其VLM(視覺語言模型)能力 , 將海量視頻數據轉化為可執行洞察 , 減少誤報、提升決策效率;
VAST則結合NVIDIA Cosmos Reason與AI操作系統及VSS Blueprint , 將視頻流和元數據轉化為主動公共安全工具 , 實現實時城市智能 , 識別突發事件并觸發響應 。
在工業安全領域 , Ambient.ai利用其時間物理感知推理能力 , 自動檢測個人防護設備缺失和危險狀況 , 顯著改善建筑、制造、物流等行業的職業健康與安全 。
而Magna正將其集成到City Delivery Platform , 幫助自動駕駛車輛快速適應新城市 , 通過模型的環境理解優化長期軌跡規劃 , 實現低成本即時配送 。
無論是面向企業級的Nemotron , 還是深耕物理世界的Cosmos Reason , 它們都將以NVIDIA NIM的形式交付 。 這不僅能確保其被安全、可靠地部署在任意NVIDIA加速基礎設施上 , 還最大化了用戶對數據隱私與控制的掌握權 。
借助NIM , NVIDIA構建了橫跨多云環境的統一部署范式 。 目前 , 這些模型計劃在不久的將來 , 通過Amazon Bedrock與Amazon SageMaker AI(主要針對Nemotron) , 以及Azure AI Foundry、Oracle Data Science Platform、Google Vertex AI等主流云平臺發布 , 進一步拓寬其在云計算環境中的可及性 。
從戰略層面看 , NVIDIA正在用Nemotron和Cosmos Reason構建一條“虛擬智能+物理智能”的雙軌道 。
前者深度嵌入企業的生產力棧 , 后者直擊機器人與自動化的環境感知瓶頸;二者通過NIM形成統一交付標準 , 進一步壓縮模型落地的時間成本 。
這種“組合拳”的意義 , 或許是在重新定義AI的商業化路徑——讓AI不僅在屏幕上生成結果 , 更能在物理世界中執行任務 。
這意味著 , NVIDIA正在邁向智能體“云端到邊緣、再到現實世界”的戰略制高點 。 一旦體系成熟 , AI就不再是單點工具 , 而是一個可隨時調用、可跨場景遷移的“生產力引擎” 。
寫在最后
從Nemotron 與 Cosmos Reason的發布 , 或許可以察覺到 NVIDIA對智能體落地路徑的技術方法論 。
二者的設計其實遵循了“分層推理”(layered reasoning)的原則——在信息世界中 , Nemotron 專注多步驟信息推理與工具調用;在物理世界中 , Cosmos Reason 負責結構化常識推理與實時決策 。 兩者既可獨立部署 , 也或可在跨界任務中形成協作 。
這一策略 , 或許形成了將引領未來智能體發展的三類方法論 。
1、從工具到主體 , 智能體將從被動執行指令轉向自主規劃、動態調整任務鏈 , 具備一定的任務自治性(task autonomy);
2、推理質量與效率比(reasoning quality-efficiency ratio)取代單純的參數規模成為競爭核心 。
3、“生態閉環”成為長期壁壘 。 從模型、數據、部署到監管一體化的體系 , 將決定智能體能否在行業內大規模普及 。
從產業視角看 , AI推理能力的提升將對企業運營模式和物理世界的自動化水平帶來結構性影響 。 企業智能體或將逐步接管流程化、規則化任務 , 進一步釋放人力 , 去做更高價值的決策 。 而物理 AI則將推動制造、物流、城市管理等領域的效率與安全雙升級 。
在未來 3~5 年 , 隨著算力迭代和推理算法持續優化 , 推理型智能體或將從“可選項”變為企業與產業系統的“必選”基礎設施 。 而目前 , NVIDIA便已經通過 Nemotron與Cosmos Reason , 在這一賽道 , 建立了技術與生態的雙重領先!
推薦閱讀
- 有錢真是太好了,韶音OpenDots ONE耳夾式耳機體驗
- 體驗非常上頭!vivo官宣新產品:Vision 8月21日見
- 國產半導體設備龍頭起訴美國半導體設備巨頭!
- 我國人工智能專利數占全球60% 綜合實力整體性、系統性躍升
- 對話「光粒」張卓鵬:把智能泳鏡賣到全球,我相信AR的未來就在不遠處
- 中國智能手機暢銷榜更新:華為Pura80排名第6,第一名意料之中
- DeepX與三星合作推出下一代2nm AI半導體
- 智造未來:北京2025世界機器人大會展現具身智能新時代
- Portégé Z40L-N 深度體驗:拓展商務筆記本的全能邊界?
- 新版微信輸入法體驗:張小龍站臺的產品,承載著微信AI的野心?
