天下苦CUDA久矣,又一國產方案上桌了

天下苦CUDA久矣,又一國產方案上桌了

文章圖片

天下苦CUDA久矣,又一國產方案上桌了

文章圖片

天下苦CUDA久矣,又一國產方案上桌了

允中 發自 凹非寺
量子位 | 公眾號 QbitAI
國產算力基建跑了這么多年 , 大家最關心的邏輯一直沒變:芯片夠不夠多?
但對開發者來說 , 真正扎心的問題其實是:好不好使?
如果把AI開發比作做飯 , 現在的尷尬是——
國產鍋(硬件)雖然越來越多了 , 但大部分大廚還是只習慣用那套進口調料包(生態) 。
這正是當下AI落地最真實的一幕 。
模型層繁花似錦 , 底層卻隱憂重重 。 大家在參數規模上輪番刷新紀錄 , 回過頭來卻發現 , 最難擺脫的還是那套已經長進骨子里的開發流程 。
△圖片由AI生成
算力只是敲門磚 , 真正的勝負手 , 是那段算法與硬件之間的“翻譯權” 。
說白了 , 如果拿不到這支“翻譯筆” , 再強悍的國產硬件 , 也只能像是一座無法與外界溝通的孤島 。
終于 , 那個讓開發者喊了無數次“天下苦CUDA久矣”的僵局 , 現在迎來了一個不一樣的國產答案 。
KernelCAT:計算加速專家級別的Agent這幾年 , AI領域的熱鬧幾乎是肉眼可見的 。
模型在密集發布 , 應用數據持續走高 , 看上去一切都在加速向前 。
但在工程現場 , 感受卻更復雜 。
真正制約落地效率的 , 并不是模型能力本身 , 而是底層軟件生態的成熟度 。
硬件選擇一多 , 問題反而集中暴露出來:遷移成本高 , 適配周期長 , 性能釋放不穩定 。 很多模型即便具備條件切換算力平臺 , 最終也會被算子支持和工具鏈完整度擋在門外 。
這讓一個事實變得越來越清晰——突破口不在堆更多算力 , 而在打通算法到硬件之間那段最容易被忽視的工程鏈路 , 把芯片的理論性能真正轉化為可用性能 。
其中最關鍵的一環 , 正是高性能算子的開發 。
算子(Kernel) , 是連接AI算法與計算芯片的“翻譯官”:它將算法轉化為硬件可執行的指令 , 決定了AI模型的推理速度、能耗與兼容性 。
算子開發可以被理解為內核級別的編程工作 , 目前行業仍停留在“手工作坊”時代——開發過程極度依賴頂尖工程師的經驗與反復試錯 , 周期動輒數月 , 性能調優如同在迷霧中摸索 。
若把開發大模型應用比作“在精裝修的樣板間里擺放家具” , 那么編寫底層算子的難度 , 無異于“在深海中戴著沉重的手銬 , 徒手組裝一塊精密機械表” 。
但如果 , 讓AI來開發算子呢?
傳統大模型或知識增強型Agent在此類任務面前往往力不從心 。 因為它們擅長模式匹配 , 卻難以理解復雜計算任務中的物理約束、內存布局與并行調度邏輯 。
唯有超越經驗式推理 , 深入建模問題本質 , 才能實現真正的“智能級”優化 。
正是在這一“地獄級”技術挑戰下 , KernelCAT應運而生 。
△終端版
具體來看 , KernelCAT是一款本地運行的AI Agent , 它不僅是深耕算子開發和模型遷移的“計算加速專家” , 也能夠勝任日常通用的全棧開發任務 , 提供了CLI終端命令行版與簡潔桌面版兩種形態供開發者使用 。
不同于僅聚焦特定任務的工具型Agent , KernelCAT具備扎實的通用編程能力——不僅能理解、生成和優化內核級別代碼 , 也能處理常規軟件工程任務 , 如環境配置、依賴管理、錯誤診斷與腳本編寫 , 從而在復雜場景中實現端到端自主閉環 。
△桌面版
為國產芯片生態寫高性能算子在算子開發中 , 有一類問題很像“調參”——面對幾十上百種參數或策略組合 , 工程師需要找出讓算子跑得最快的那一組配置 。
傳統做法靠經驗試錯 , 費時費力 , 而且還容易踩坑 。
KernelCAT的思路是——引入運籌優化 , 把“找最優參數”這件事交給算法 , 讓算法去探索調優空間并收斂到最佳方案 。
以昇騰芯片上的FlashAttentionScore算子為例 , KernelCAT在昇騰官方示例代碼上 , 可以自動對該算子的分塊參數調優問題進行運籌學建模 , 并使用數學優化算法求解 , 在十幾輪迭代后就鎖定了最優配置 , 在多種輸入尺寸下延遲降低最高可達22% , 吞吐量提升最高近30% , 而且整個過程無需人工干預 。
這正是KernelCAT的獨特之處:它不僅具備大模型的智能 , 能夠理解代碼、生成方案;還擁有運籌優化算法的嚴謹 , 能夠系統搜索并收斂到最優解 。
智能與算法的結合 , 讓算子調優既靈活 , 又有交付保障 。
在對KernelCAT的另一場測試中 , 該團隊選取了7個不同規模的向量加法任務 , 測試目標明確——
即在華為昇騰平臺上 , 直接對比華為開源算子、“黑盒”封裝的商業化算子與KernelCAT自研算子實現的執行效率 。
結果同樣令人振奮 , 在這個案例的7個測試規模中 , KernelCAT給出的算子版本性能均取得領先優勢 , 且任務完成僅用時10分鐘 。
這意味著 , 即便面對經過商業級調優的閉源實現 , KernelCAT所采用的優化方式仍具備一定競爭力 。

這不僅是數值層面的勝利 , 更是國產AI Agent在算子領域完成的一次自證 。
沒有堅不可破的生態 , 包括CUDA全球范圍內 , 目前超過90%的重要AI訓練任務運行于英偉達GPU之上 , 推理占比亦達80%以上;其開發者生態覆蓋超590萬用戶 , 算子庫規模逾400個 , 深度嵌入90%頂級AI學術論文的實現流程 。
黃仁勛曾言:
我們創立英偉達 , 是為了加速軟件 , 芯片設計反而是次要的 。
這句話揭示了一個關鍵真相:在現代計算體系中 , 軟件才是真正的護城河 。
英偉達的持續領先 , 源于其從底層算法出發、貫通架構與編程模型的全棧掌控能力 。
參考AMD的歷史經驗 , 即使在架構與制程上具備充足的競爭力 , 缺乏成熟的生態系統也仍然難以撼動英偉達的地位 。
這類案例清晰地表明 , 模型性能并不簡單等價于算力規模的堆疊 , 而是取決于算法設計、算子實現與硬件特性的協同程度 。 當算子足夠成熟 , 硬件潛力才能被真正釋放 。
沿著這條思路 , KernelCAT團隊圍繞模型在本土算力平臺上的高效遷移 , 進行了系統性的工程探索 。
以DeepSeek-OCR-2模型在華為昇騰910B2 NPU上的部署為例 , KernelCAT展示了一種全新的工作范式:
對抗“版本地獄”:KernelCAT對任務目標和限制條件有著深度理解 , 基于DeepSeek-OCR-2官方的CUDA實現 , 通過精準的依賴識別和補丁注入 , 解決了vLLM、torch和torch_npu的各個依賴庫間版本互鎖的三角矛盾 , 硬生生從零搭建起了一套穩定的生產環境 , 結合基礎Docker鏡像即可實現模型的開箱即用 。 準確修補:它敏銳地識別出原版vLLM的MOE層依賴CUDA專有的操作 , 和vllm-ascend提供的Ascend原生MOE實現 , 并果斷通過插件包進行調用替換 , 讓模型在國產芯片上“說上了母語” 。 實現35倍加速:在引入vllm-ascend原生MOE實現補丁后 , vLLM在高并發下的吞吐量飆升至550.45toks/s , 相比Transformers方案實現了35倍加速 , 且在繼續優化中 。 無需人工大量介入:在這種復雜任務目標下 , KernelCAT可以自己規劃和完成任務 , 無需研發提供大量提示詞指導模型工作 。這意味著 , 原本需要頂尖工程師團隊花費數周才能完成進行的適配工作 , 現在可以縮短至小時級(包含模型下載、環境構建的時間) 。
與此同時 , 它讓國產芯片從“能跑”到“飛起” , 實現了35倍的加速 。
也就是說 , KernelCAT讓國產芯片不再是被“封印”的算力廢鐵 , 而是可以通過深度工程優化 , 承載頂級多模態模型推理任務的性能引擎 。

“天下苦CUDA久矣”——這句話曾是無奈的自嘲 , 如今正成為行動的號角 。
KernelCAT所代表的 , 不只是一個AI Agent新范式的出現 , 更是一種底層能力建設方式的轉向:
從依賴既有生態 , 到構建能夠自我演進的計算基礎 。
【天下苦CUDA久矣,又一國產方案上桌了】KernelCAT正限時免費內測中 , 歡迎體驗:https://kernelcat.cn/

    推薦閱讀