“FP8 精度”如何賦能國產AI?

“FP8 精度”如何賦能國產AI?

文章圖片




當前AI大模型(LLM)訓練與推理對算力的巨大需求 , 以及傳統計算精度(如FP16/BF16)面臨的功耗、內存帶寬和計算效率瓶頸 。
FP8(8位浮點數)作為一種新興的、得到行業巨頭(NVIDIA、AMD、Intel)支持的低精度格式 , 正在成為下一代AI芯片的標配 。
FP8對于國產AI芯片有著怎樣的戰略意義?這可能不僅是技術追趕 , 更是參與制定未來AI計算標準、構建自主生態的關鍵機遇 。
01AI計算進入“8位時代”的必然性
如今 , 大模型的算力饑渴與“內存墻”困境日益尖銳 。 模型參數規模指數級增長從千億到了萬億 , 大模型的“膨脹速度”堪稱“失控”:從BERT的3.4億參數到GPT-3的1750億 , 再到如今超萬億參數的模型 , 每兩年參數規模增長約240倍 。 但GPU顯存的增長卻像“蝸牛爬”——2016年P100僅12GB , 2023年H200也才141GB , 7年只翻了10倍 。
這種“參數瘋漲、顯存龜速”的反差 , 讓訓練大模型成了“內存噩夢” 。 比如訓練GPT-3 , 僅模型參數就需要650GB顯存 , 加上訓練時的梯度、動量等狀態(約1950GB) , 再算上中間計算的激活值(366GB) , 總需求超2900GB 。 而單張A100 GPU只有80GB顯存 , 必須靠多卡并行 , 但卡越多 , 卡間通信又成了新瓶頸 。
“存”“算”性能失配 , 內存墻導致訪存時延高 , 效率低 。 內存墻 , 指內存的容量或傳輸帶寬有限而嚴重限制 CPU 性能發揮的現象 。 內存的性能指標主要有“帶寬”(Bandwidth)和“等待時間”(Latency) 。 近 20 年間 , 運算設備的算力提高了 90000 倍 , 提升非常快 。 雖然存儲器從 DDR 發展到 GDDR6x , 能夠用于顯卡、游戲終端和高性能運算 , 接口標準也從 PCIe1.0a 升級到 NVLink3.0 , 但是通訊帶寬的增長只有 30 倍 , 和算力相比提高幅度非常緩慢 。
馮諾依曼架構下 , 數據傳輸導致嚴重的功耗損失 。 馮·諾依曼架構要求數據在存儲器單元和處理單元之間不斷地“讀寫” , 這樣數據在兩者之間來回傳輸就會消耗很多的傳輸功耗 。 根據英特爾的研究表明 , 當半導體工藝達到 7nm 時 , 數據搬運功耗高達 35pJ/bit , 占總功耗的63.7% 。 數據傳輸造成的功耗損失越來越嚴重 , 限制了芯片發展的速度和效率 , 形成了“功耗墻”問題 。
而FP8的優勢就是——效率與精度的完美平衡 。
02FP8并非簡單的“砍位數”——技術內涵與設計挑戰
FP8(8位浮點數)格式正以其獨特的綜合優勢 , 成為推動AI計算邁向下一階段的關鍵技術 。 其核心價值可總結為:在效率與精度之間實現了前所未有的平衡 。
首先 , FP8帶來了極致的計算與存儲效率提升 。 與目前廣泛使用的FP16相比 , FP8將內存占用直接減少50% , 顯著降低了內存帶寬壓力 , 使得在相同硬件條件下能夠處理更大規模的模型或更高批次的數據 。 這一改進不僅直接提升了推理和訓練速度 , 還大幅降低了系統功耗 , 對部署在邊緣設備或大規模數據中心中的AI應用都具有重要意義 。 特別是在內存帶寬經常成為瓶頸的AI加速器中 , FP8的有效應用能夠釋放更大的算力潛力 。
其次 , FP8在壓縮數據的同時維持了可接受的數值精度 。 與純整數格式(如INT8)相比 , FP8保留了浮點數的表示特點 , 具備更大的動態范圍和更靈活的精度分配 , 能夠更好地適應訓練過程中梯度計算、激活函數輸出等對數值范圍敏感的操作 。 這意味著盡管比特數較低 , FP8仍能較好地維持模型訓練的穩定性和最終精度 , 減少因量化造成的性能損失 , 從而在提升效率的同時避免模型質量的顯著下降 。
此外 , FP8正在快速獲得全行業生態的支持 。 從 NVIDIA Hopper 架構和 H100 GPU 開始 , 多家芯片廠商已在其最新硬件中提供對FP8的原生支持 。 軟件和框架層面 , 主流深度學習框架(如TensorFlow和PyTorch)以及推理引擎正在積極集成FP8算子庫和優化工具鏈 。 這種從硬件到軟件、從訓練到推理的全面標準化 , 為開發者提供了統一的高效編程環境 , 進一步推動了FP8在各類模型中的普及 。
FP8并非只是在現有格式基礎上簡單“減少比特” , 而是面向AI計算真實需求的一次系統級優化 。 它既解決了高性能計算對資源高效利用的迫切需求 , 又兼顧了模型精度保持的挑戰 , 正迅速成為AI訓練與推理領域的新標準 。
FP8的兩種主流格式:

  • E5M2 (5位指數 , 2位尾數):動態范圍大 , 適合保存前向傳播的激活值(Activations)和權重(Weights) 。
  • E4M3 (4位指數 , 3位尾數):精度更高 , 適合保存反向傳播的梯度(Gradients) 。

當全球科技圈還在討論GPT-5的突破時 , 中國AI企業DeepSeek在官宣V3.1模型的留言區埋下了一顆重磅炸彈——\"UE8M0FP8是針對即將發布的下一代國產芯片設計\" 。
那國產芯片實現FP8的核心挑戰有哪些呢?首先是如何在ALU、Tensor Core等計算單元中高效支持兩種格式的混合運算 。 其次是編譯器、算子庫、驅動等如何無縫地將AI框架的指令映射到FP8硬件上;設計先進的量化工具鏈 , 確保模型從高精度到FP8轉換時的精度損失最小 。 最后是與現有生態的兼容:支持FP16/BF16等格式的平滑遷移和混合精度計算 。
03國產AI芯片的FP8機遇:突圍與超越
FP8是相對較新的標準 , 國內外差距小于在CUDA生態上的差距 , 是難得的機遇窗口 。
【“FP8 精度”如何賦能國產AI?】若以NVIDIA B100的FP8算力(14 petaFLOPS)為基準 , 在同等制程條件下 , DeepSeark架構憑借算法與硬件的協同優化 , 預計可實現20%–30%的有效算力提升 。 需要說明的是 , 該推測目前仍基于已公開技術文檔 , 實際性能需以流片測試為準 。
在生態建設方面 , 華為昇騰910B目前主要支持FP16和BF16格式 , 在FP8支持方面尚落后至少一代 。 DeepSeek所采用的“模型即芯片”策略 , 本質上借鑒了谷歌TPU的成功經驗 , 但仍需應對諸如PyTorch量化工具鏈適配等實際工程挑戰 。
從供應鏈安全角度考慮 , FP8格式對計算精度要求相對較低 , 一定程度上降低了對晶體管密度的依賴 , 這一特點反而成為在國產制程條件下的一項差異化優勢 。
以華為昇騰系列NPU為例 , 針對FP8設計的專用指令集使其在典型ResNet模型上的吞吐量提升40% , 同時單位算力的能耗降低至原來的1/3 。 這種突破性進展源于兩大創新:一是硬件層面的亞穩態電路設計優化 , 解決了低比特下梯度消失的問題;二是軟件框架對混合精度訓練的支持 , 允許不同網絡層靈活切換FP8與其他格式 。 值得關注的是 , 寒武紀思元590等國產芯片已率先集成FP8加速模塊 , 標志著自主架構開始引領精度革新潮流 。
DeepSeek的戰略布局揭示了一個關鍵邏輯:當英偉達A100/H100因出口管制而缺貨時 , 國產芯片廠商與下游用戶的深度綁定正在形成獨特競爭優勢 。 壁仞科技BR104、沐曦MXC500等新品均將FP8作為核心賣點 , 配合自研的編譯器工具鏈 , 可實現從模型轉換到部署落地的全流程無縫銜接 。
當前 , 盡管IEEE P754等國際標準組織仍在積極推進FP8的規范化進程 , 但產業應用已明顯走在了標準制定的前面 。 以百度飛槳、智譜AI為代表的AI平臺已率先實現對FP8格式的默認支持 , 而在PyTorch等開源生態中 , 類似AutoFP8的自動化混合精度庫也在不斷涌現 。 這種以實際應用驅動、自下而上的技術擴散 , 為中國企業在AI基礎軟硬件領域爭取全球話語權打開了關鍵窗口期 。 如果能在未來一年半內實現三大關鍵突破——包括主流框架深度集成FP8、高質量開源模型示范驗證 , 以及國產硬件適配率突破50%——中國完全有能力主導一場以FP8為共識的生態變革 。
然而 , FP8的全面推廣仍面臨諸多現實阻力 。 部分業界觀點對其在復雜數據分布下的穩定性存疑 , 不同平臺間算子兼容性問題也尚未徹底解決 。 面對這些挑戰 , 一些企業如摩爾線程提出了“漸進式升級”的思路 , 通過容器化技術保障原有模型的兼容性 , 并引入動態剖分機制實現推理過程中不同精度策略的智能選擇 。 這類漸進式路徑不僅緩解了遷移成本高、風險大的核心痛點 , 也為FP8從試驗階段走向規模化落地贏得了更廣泛的支持與時間窗口 。
DeepSeek此次技術路線的價值 , 在于證明了算法-硬件協同創新可能比單純追逐制程進步更具可行性 , 這或許只是中國AI算力自主化的第一步 。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀