英偉達 CUDA 重大更新!

英偉達 CUDA 重大更新!

文章圖片

Nvidia 發布了其CUDA 工具包的最新更新 , Ver. 13 引入了重大的性能更新 。
CUDA 13 版本特性概述CUDA 13 版本引入了全新 CPU 資源支持、統一 Arm 平臺架構 , 并新增了多個操作系統適配 。
英偉達已發布 CUDA 工具包的最新更新版本 , 13 版本帶來了顯著的性能升級 。
CUDA Toolkit 版本 13 現在支持最新的 Blackwell GPU 系列
升級后的工具包增強了程序員使用便利性、兼容性及語言加速能力 。 13 版本還首次在英偉達生態中引入基于分塊的編程模型 , 進一步降低開發者工作量 。
什么是CUDA?圖形處理器(GPU)針對含多個小型處理核心的高度并行運算進行了優化 , 但其本身難以直接用于非圖形計算場景的編程 。 CUDA 是英偉達開發的計算環境 , 支持圖形渲染以外的高性能計算應用 。 該平臺作為 GPU 與通用應用程序之間的中間層 , 可賦能需要并行運算的程序 , 同時包含豐富的庫、編譯器指令及語言適配功能 。
AI 大語言模型開發與應用、科學分析及密碼學等復雜場景 , 均能從 GPU 及多 GPU 系統提供的大規模并行計算中獲益 。 CUDA 的設計目標即讓廣泛的應用開發者能夠利用這些計算場景 。
13 版本關鍵更新CUDA 13 新增對英偉達最新 Blackwell GPU、Jetson Thor 高級 AI 與機器人 GPU , 以及 DGX Spark “桌面超級計算機” 的支持 。 其支持范圍覆蓋至當前所有架構的英偉達 GPU(不再支持 7.5 之前的架構) , 并針對 Blackwell 架構更新了 32 字節對齊的向量類型以提升性能 。
該工具包統一了 Arm 平臺的開發者體驗 , 提供覆蓋服務器與嵌入式應用的單一工具鏈 , 同時更新了操作系統與平臺支持 , 包括紅帽企業 Linux 10、Debian 12.10、Fedora 42 , 以及 Rocky Linux 10.0 和 9.6 。 此外 , NVIDIA Nsight 開發工具得到更新以優化依賴檢查 , CUDA 數學庫(如 cuBLAS、cuSPARSE、cuSOLVER 及 cuFFT)也完成升級 。
NVCC 編譯器現支持 GCC 15 與 Clang 20 , 并引入新語言特性以改善應用二進制接口(ABI)集成 。 用戶還將獲得加速的 Python 核心與開發者友好的封裝方式 , Wheel 包與 CUDA 核心計算庫(CCCL)也優化了庫結構 。
統一服務器與嵌入式開發工具鏈在 13 版本之前 , CUDA 幾乎可視為兩個獨立產品:開發者需分別安裝服務器級項目與嵌入式項目的工具鏈 。 兩者語法與操作雖高度相似 , 但針對服務器與嵌入式目標的庫、頭文件及其他開發組件存在差異 。
13 版本打破了這一限制:現在單一工具鏈可同時適配兩種目標場景 , 生成的二進制文件會針對開發者使用的 GPU 自動優化 , 無需因部署場景切換工具鏈 。
新版本還整合了與 GPU 部署配套的 Arm 代碼 ——Arm 二進制文件兼容所有 Arm 目標設備(僅 Orin sm_87 除外)及仿真平臺 , 而舊版本需要為仿真與部署使用不同工具鏈 。
基于分塊的并行編程分塊編程(或基于數組的編程)支持對數組或矩陣中的所有數據點同時執行指令 。 并行編程常需對多個數據塊同時執行相同操作 , 而分塊編程可自動為開發者處理并行邏輯:只需編寫單個函數 , 底層智能層會處理所有低級細節以實現并行運算 。
比較塊級編程與基于圖塊的編程 。
編譯器與運行時系統負責在線程與核心間分配負載 , 該抽象層在大幅降低編碼負擔的同時實現了性能最大化 。
免費獲取【英偉達 CUDA 重大更新!】英偉達 CUDA 工具包 13 版本現已開放免費下載 , 支持 Linux x86_64 與 arm64-sbsa 多發行版 , 以及 Windows 10、11、Server 2022 和 Server 2025 的 x86_64 平臺 。

    推薦閱讀