揭秘寒武紀的10年迭代:從大模型到搜廣推,國產算力攻堅“軟件護城河”

揭秘寒武紀的10年迭代:從大模型到搜廣推,國產算力攻堅“軟件護城河”

文章圖片


智東西
作者 | 陳駿達
編輯 | 漠影
算力 , 已成為推動AI產業持續演進的核心引擎 。 隨著國產大模型體系的快速崛起 , 構建自主、可控、可持續的國產算力生態閉環 , 讓國產算力平臺與國產AI生態深度適配 , 已成為產業界的共識與關鍵方向 。
令人可喜的是 , 今年以來 , 國產算力平臺與國產AI生態的“Day 0”適配、聯合創新等消息陸續傳出 。 作為國產算力的代表企業 , 在生態層面 , 寒武紀以更加開放的姿態積極擁抱國產AI生態 , 與主流AI社區和領先企業保持深度協同 。
寒武紀今年在阿里Qwen 3系列模型、DeepSeek-V3.2-Exp模型發布當日 , 就宣布完成適配 , 這意味著雙方在模型發布之前 , 就已展開深度合作 。 除此之外 , 寒武紀還與商湯、智譜、階躍星辰官宣了合作 , 推進國產算力與國產大模型的深度適配 。
這些合作 , 讓開發者在寒武紀平臺上能夠低成本完成遷移與部署 , 顯著降低算力替代與生態融合的門檻 。
寒武紀成立的初衷是為“人工智能的大爆發”提供底層算力支持 , 不僅要硬件算力強大 , 更要軟件通用、易用 。 寒武紀一直以來采用了訓練推理融合、統一的基礎軟件平臺研發策略 , 構建了從自研芯片架構到高性能軟件平臺的完整體系 , 實現了計算架構、編譯優化與算法調度的深度融合:硬件為算法提供極致的并行性能與能效比 , 軟件則通過智能編譯、調度與適配 , 讓每一份算力最大化釋放 。
寒武紀打造的基礎軟件平臺Cambricon NeuWare , 讓用戶與開發者能夠跨越不同的寒武紀硬件和應用場景 , 降低上手難度 , 提升開發效率 , 快速遷移與部署AI應用 。
經過多年投入與積累 , Cambricon NeuWare已經日趨成熟 , 全面兼容社區最新PyTorch版本和Triton算子開發語言 , 支持用戶模型和自定義算子快速遷移 , 其在多項指標上都已達到業界領先水平 。
針對當前業界極具挑戰的大規模集群運維實踐 , Cambricon NeuWare進一步豐富和完善了多項集群工具 , 為大規模訓練推理業務在集群環境中的部署運維調試和調優提供了堅實的底座 。
眾多國產AI廠商對寒武紀算力的信賴 , 充分驗證寒武紀基礎軟件平臺Cambricon NeuWare的穩定性和競爭力 , 已經滿足了真實世界的商用要求 。

一、從大模型到搜廣推訓推解決方案 , 寒武紀完成大規模技術和產品驗證大模型技術正成為智能經濟的核心驅動力 , 深刻重塑人機交互的方式 。 “搜廣推”場景——即搜索、廣告與推薦系統——成為大模型技術落地最具價值的前沿陣地之一 。 大模型賦能的搜廣推系統 , 不僅帶來用戶體驗的顯著提升 , 更重塑了流量分發的邏輯:讓“找信息”、“看內容”、“買東西”從被動推薦走向主動理解 , 從關鍵詞匹配邁向意圖洞察 。
大模型與“搜廣推”的融合 , 不僅是一場技術革新 , 更是商業模式的再造 。 寒武紀在大模型與搜廣推的訓練推理上 , 都已完成了大規模的技術和產品驗證 。
在搜廣推訓練方向 , 寒武紀穩步推進技術和產品驗證 。 驗證結果表明 , 解決方案可支撐多場景下的流式訓練任務 , 可持續超數月穩定運行 , 精度與穩定性均滿足要求 。 持續性能優化方面 , 完成Layernorm/RMSNorm/L2Norm等多種圖匹配融合 , 顯著提升性能 。 在圖融合基礎上進一步優化XLA支持 , 并獲得更顯著的加速比結果 。
在大模型訓練方向 , 寒武紀重點支持DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next等MoE類模型訓練 , 同時擴展了GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video等模型的訓練支持 。 基于原生FP8的計算能力 , 新增Qwen/DeepSeek等系列網絡FP8的訓練支持 , 精度符合預期 。
在大模型推理方向 , 寒武紀研究并實踐W4A4以及MX-FP8/MX-FP4等新型數據類型 , 探索并支持多種高效注意力機制 , 包括Sparse Attention與Linear Attention 。
寒武紀緊跟先進模型的演進 , 支持Qwen-Omni等多模態融合模型、Hunyuan3D等3D生成模型、CosyVoice等語音生成模型 , 以及DLM和VLM等新興架構 , 確保技術棧的先進性與完備性 。
值得一提的是 , 通過深度的生態合作 , 針對DeepSeek V3.2-Exp模型 , 寒武紀實現發布即適配的支持 , 并與合作伙伴同步開源適配代碼 。
與此同時 , 持續優化vLLM推理引擎 , 完善混合精度低比特量化推理機制 , 支持通算并行優化 , 支持PD分離部署 , 支持基于類IBGDA的極致低時延大規模專家并行 , 支持Torch.compile特性優化主機側瓶頸 , 實現了大模型應用的全方位加速 。
寒武紀持續開展對DeepSeek、Qwen、Wan、Hunyuan等系列最新開源模型的極致性能優化 , 并專項攻堅長序列與超低解碼延時等場景的性能優化 , 持續保持性能領先優勢 。
寒武紀能夠在大模型與“搜廣推”訓推方面取得快速突破 , 完成大規模技術和產品驗證 , 源于寒武紀長期的技術深耕與軟硬協同能力 。 正是這種軟硬一體、兼具性能領先與部署高效的核心競爭力 , 讓寒武紀能夠快速獲得市場信任和認可 。
寒武紀基礎軟件平臺Cambricon NeuWare , 圖中僅列舉部分組件 , 相關縮寫詞注釋請見文末 。

二、高穩定驅動和運行時庫 , 讓AI企業無憂擴展底層驅動的高穩定性是業務部署的重要前置條件 , 寒武紀的驅動能支撐企業業務運行數月不停機 。 同時 , 寒武紀的驅動在業務優化迭代中 , 大幅提升了吞吐能力 , 在極具挑戰的搜廣推和大模型推理場景中 , 最大限度地消除了主機側瓶頸 , 為端到端達成領先的計算效率打下了堅實的基礎 。
寒武紀通過細粒度的并行技術 , 解耦數據依賴和調度依賴 , 極限壓榨Kernel函數的吞吐能力 , 疊加多路DSA異步調度和協同優化 , Kernel函數調度吞吐可達每秒幾十萬個任務 , 實現業界領先的Kernel吞吐能力 。
全面支持Kernel graph的批量下發功能 , 可運行時匯聚多個算子單次下發 , 支持在設備側駐留和下發 , 實現極低延遲的多Kernel下發 , 延時水平與國際競品相當 。
增加類IBGDA接口 , 為通信庫進行極低時延的專家并行通信提供系統保障 。
寒武紀的驅動和運行時庫支持豐富的設備切分使用場景:
(1)visible cluster:運行時可編程的彈性拆分 , 可用于快速部署;
(2)sMLU:基于時分復用技術 , 可用于docker快速部署;
(3)MIM:物理劃分 , 全面對標國際競品MIG技術 。

三、編譯器和調試調優工具持續迭代 , 達到業內領先效率BANG C語言是寒武紀BANG異構并行編程模型的編程語言 , 在C/C++語言基礎上針對MLU架構特點進行擴展 , 可以高效編寫在MLU上運行的并行程序 , 充分利用MLU大規模并行架構來加速計算任務 。
BANG C支持豐富的編譯優化技術 , 包括鏈接時優化(LTO)、基于Profiling反饋優化(PGO)、基于函數調用關系的函數級片上空間復用、Device側動態鏈接機制、編譯器靜態推導訪存指令地址空間、任務內并行指令流自動同步算法、優化內存依賴分析、指令級并行的局部指令調度、全局指令調度以及符合MLU架構的高性能指令布局優化 。
通過這一系列技術 , 最大限度的發揮芯片的全部潛力 , 如矩陣乘法等算子可達業界領先的效率 。
持續快速迭代Triton算子開發語言 , 支持Triton 3.4所有特性 , 包括FP8/FP4的數據類型 。引入fast libentry , 優化Triton Kernel的主機端開銷 , 在小Workload場景性能提升顯著 。 Triton編譯器后端實現多種優化:
(1)優化軟件流水的片上ram占用 , 優化軟件流水的并發度 , 實現平衡軟件流水性能和單指令性能的自動軟件流水方案;
(2)實現指令并行、片上ram占用、指令延遲掩蓋等多目標的指令調度優化;
(3)實現任務并行的自動調優和自動調度;
(4)實現自動循環合并;
(5)實現基于算子語義的訪存和計算優化 , 如transpose穿透和合并、slice、broadcast穿透等;
(6)優化指令融合和指令選擇的性能建模 。
通過上述優化 , 提升了Triton Kernel性能泛化性 , 其中Matmul、FlashAttention類和HSTU類算子性能提升明顯 , 部分熱點算子已經與手寫算子性能相當 。
進一步完善系統和算子的調試調優工具:支持算子core dump , 實現異常現場的核心轉存 , 提供精準現場和調試信息對應關系 , 提供core dump文件解析工具 , 可快速分析定位算子出現異常的根因 。
在主機側與設備側并行度調優方面 , CNPerf可在極低跟蹤開銷的情況下實現全維度性能數據采集 , 可精準捕獲主機側與設備側執行流、PMU性能指標、函數調用棧等關鍵信息 , 支持Kernel計算、內存拷貝、通信任務等多類型任務追蹤 , 覆蓋從底層硬件到上層應用的全棧性能數據 。
CNPerf-GUI智能調優能力突出 , 內置專家建議系統可自動檢測設備空泡、利用率不足、集合通信等待等問題 , 精準定位熱點算子與性能瓶頸 。 此外CNPerf-GUI針對多機多卡場景 , 額外提供多日志自動對時與集群迭代分析等功能 , 進一步簡化用戶在復雜場景下的調優復雜度 。
在單算子調優方面 , CNPerf可支持GHz采樣頻率的硬件工作狀態采樣 , 精準記錄MLU前后端工作狀態 。 用戶可基于該功能分析流間/核間同步、算子軟件流水排布等問題 , 最大化利用硬件后端資源 。
CNPerf-GUI適配Linux、macOS、Windows多平臺 , 支持CNPerf、PyTorch Profiler、Tensorflow Profiler、CNTrainKit等日志格式 , 且支持超大日志文件(上億函數記錄)的快速加載及流暢操作 。
新增程序正確性分析工具CNSantizer , 使用運行時插樁技術自動完成多核間競爭訪問檢測、單核內多指令流競爭訪問檢測、Device側內存越界訪問檢測、未定義程序行為檢測、使用未初始化內存檢測等 。
新增程序性能分析和調優建議工具CNAdvisor , 使用運行時插樁采集以及硬件性能計數器采集方式獲取程序運行時狀態 , 并根據性能調優經驗庫 , 自動分析程序性能問題并標記出對應源代碼位置 , 進一步給出優化建議 。

四、持續打磨核心基礎算子 , 打造可靠維測平臺寒武紀計算庫積極擁抱開源社區的技術演進 , 持續迭代打磨核心基礎算子的功能、性能和穩定性 , 更快更好地支持在寒武紀智能芯片上高效、穩定地運行開源和私有模型 。 計算庫針對搜廣推、大語言模型、文生圖和文生視頻等熱點場景做了深入的功能擴展和性能優化:
大規模Embedding Table稀疏訪存和計算極致優化 , 性能與GPU競品相當;
GEMM/BatchGEMM/GroupGEMM等矩陣乘類算子性能泛化得到顯著增強 , 大規模矩陣乘HFU達到行業領先水平;
矩陣乘類算子支持多種社區公開/私有定制的低精度量化功能;
支持類CUTLASS GEMM模板庫的擴展開發和AutoTuning;
Attention類算子在低精度加速等方向的探索和研發成果已成功完成驗證 , 獲得良好的加速效果;
支持大語言模型使用的MTP技術 , 開發了用于優化MTP性能的Top-k和Top-p采樣、隨機采樣等融合算子 。
為支持計算庫的持續快速迭代 , 保障計算庫軟件質量的同時做到精度性能不回退 , 寒武紀計算庫團隊還打造了可靠的維測平臺 , 提供了豐富的維測工具 , 開發了高覆蓋度的功能性能測例 , 并制定了科學的驗收標準 。

五、通信庫擴展性比肩國際主流競品 , 集群工具賦能萬卡場景通信庫針對大規模場景進行專項優化:新增HDR/DBT等Allreduce通信算法 , 優先提升大規模條件下的通信帶寬 , 對Alltoall操作進行深度優化 , 使其大規模擴展性達到與國際主流競品相當的水平 。
通信庫同步加強可維可測相關的功能 , 支持在線打點、模塊化日志、高可靠服務模塊等 , 幫助用戶能夠快速分析通信下發錯誤 , 異常卡死等問題 , 提高集群通信可用性 。 通信庫通過在Kernel支持RoCE網卡的RDMA操作(類IBGDA)顯著優化大規模專家并行場景下的ALL2ALL通信延遲 , 提升了MoE類模型推理任務的端到端吞吐 。
CntrainKit-Accu(大規模集群精度定位工具):為萬卡分布式訓練場景提供端到端精度定位 , 提供精度指標在線監控 , 并針對精度問題進行自動化分級、采集信息、智能分析并提供對應解決方案 。 CntrainKit-Accu工具還全面支持NaN/Inf異常檢測與快速定位 , 實現異常點級別的秒級溯源 , 大大提升大模型和搜廣推等場景的大規模訓練精度問題排查效率 , 讓每一次精度問題都能被精準捕獲 。
CntrainKit-Monitor(大規模集群監控調優工具):實現對萬卡級集群訓練任務的實時通信與算子性能畫像 , 具備毫秒級任務健康可視化能力 , 支持算子粒度的性能剖析 , 識別AI作業中的性能瓶頸 。 具備萬卡規模訓練任務的“可觀、可查、可優”能力 , 真正實現大規模集群的“問題自感知” 。
CNCE(集群監管平臺):構建覆蓋計算、網絡、存儲的數據中心全景監控體系 , 實現對十萬卡級算力集群的秒級狀態采集與拓撲可視化 。 平臺具備自動發現、智能診斷、自動處理的閉環故障管理能力 , 支持萬卡級任務的多維異常診斷與根因定位 , 讓用戶專注于算法創新與模型訓練 , 無需再為底層硬件波動分心 。 CNCE的上線使集群運維從“人工巡檢”邁向“智能自治” , 顯著提升大規模 AI 訓練的可用性與穩定性 。
CNAnalyzeInsight(故障分析工具):CNAnalyzeInsight是智能日志分析與根因診斷引擎 , 支持對 GB 級日志的秒級檢索與多維聚合分析 。 具備在線實時診斷告警與離線快速分析雙模式 , 能夠實現“異常發現、問題定位、原因歸納、修復建議生成”的故障診斷閉環 , 顯著提升訓練任務的穩定性與問題處理效率 。

六、擁抱開源大趨勢 , 提供GPU零成本遷移工具寒武紀快速跟進社區PyTorch的進展 , 支持 PyTorch 2.1到PyTorch 2.8的全部社區版本 , 適配了包括DDP、FSDP、FSDP2、HSDP、Tensor Parallelism、Context Parallel、Pipeline Parallelism、SDPA、Inductor、MLU Graph、AOTInductor以及Inductor cppwrapper等一系列關鍵功能 。
Torch compile性能整體上追平GPU compile加速比 , 高效支撐了產品在多個訓練和推理場景下的成功驗證 。
寒武紀還提供GPU Migration一鍵遷移工具 , 幫助用戶近乎零成本將模型從GPU遷移到MLU 。 同時配備TorchDump精度調試工具和Torch Profiler性能調試工具 , 助力用戶高效定位和解決精度和性能問題 。
此外 , 寒武紀還支持PyTorch Lightning、TorchTitan、TorchRec等社區生態 , 并建立快速跟進社區版本的長效機制 , 可在社區版本發布后2周內實現MLU適配版本的發布 。

七、近十年持續打磨迭代 , 寒武紀助AI走進千行百業通過近十年的持續打磨迭代 , 寒武紀已構建出一套高效、易用、穩定、成熟且具備高可擴展性的軟硬一體化產品體系 。 憑借領先的芯片技術與完善的基礎軟件平臺 , 寒武紀產品已經在大模型、搜廣推、圖片與視頻生成和各類多模態的訓練與推理場景中成功完成驗證 , 贏得廣泛認可 。
在此過程中 , 寒武紀產品不斷接受更多大規模場景高強度檢驗 , 推動軟件平臺與芯片體系持續進化 , 形成了“應用促進優化、優化推動更強應用”的良性循環 。
通過為用戶提供更高效、更穩定、更廣覆蓋的支持 , 寒武紀加速賦能產業智能化轉型 , 推動AI能力真正走進千行百業 。“讓機器更好地理解和服務人類” , 寒武紀的愿景正在一步一步成為現實 。

附錄:寒武紀基礎軟件平臺Cambricon NeuWare圖中標注的縮寫詞全稱
1. Cambricon HLO:機器學習模型高級操作集(HLO)的寒武紀后端;
2. CNNL:Cambricon Network Library , 寒武紀人工智能計算庫;
3. CNNL-Extra:Cambricon CNNL Extra , 寒武紀人工智能計算庫的擴展庫;
4. CNCV:Cambricon Computer Vision Library , 寒武紀計算機視覺庫;
5. CNCL:Cambricon Communications Library , 寒武紀高性能通信庫;
6. CNFFmpeg:Cambricon FFmpeg , 基于開源FFmpeg開發的硬件加速庫;
7. CNCC:Cambricon Compiler Collection , 寒武紀BANG C語言編譯器;
8. CNAS:Cambricon Assembler , 寒武紀匯編器組件;
9. CNGDB:Cambricon GNU Debugger , 寒武紀BANG C語言調試工具;
10. CNSanitizer:Cambricon Sanitizer , 寒武紀代碼檢測工具;
11. CNPAPI:Cambricon Profiling API , 寒武紀性能分析接口庫;
12. CNPerf:Cambricon Performance , 寒武紀性能分析工具;
13. CNPerf-GUI:Cambricon Performance Graphical User Interface , 寒武紀性能剖析圖形化工具;
14. CNMon:Cambricon Monitor , 寒武紀設備監控與管理命令行工具;
15. CNVS:Cambricon Validation Suite , 寒武紀設備驗證工具集;
16. CNFieldiag:Cambricon Field Diagnostic , 寒武紀現場診斷工具;
17. CNAnalyzeInsight:寒武紀故障分析工具;
18. CNCL-benchmark:Cambricon Communications Library Benchmark , 寒武紀通信庫性能基準測試工具;
【揭秘寒武紀的10年迭代:從大模型到搜廣推,國產算力攻堅“軟件護城河”】19. Cambricon Device Plugin:寒武紀設備插件;
20. CCOMP:Cambricon Cluster Operation Management Platform , 寒武紀智算運管平臺 。
寒武紀在“寒武紀開發者”微信公眾號上打造了開發者交流平臺 , 開發者可以在這里第一時間獲取寒武紀開發相關的新產品發布 , 以及線上線下活動咨詢等 , 推薦關注~

    推薦閱讀