“FP8 精度”如何賦能國產AI?

文章圖片

當前AI大模型（LLM）訓練與推理對算力的巨大需求，以及傳統計算精度（如FP16/BF16）面臨的功耗、內存帶寬和計算效率瓶頸。
FP8（8位浮點數）作為一種新興的、得到行業巨頭（NVIDIA、AMD、Intel）支持的低精度格式，正在成為下一代AI芯片的標配。
FP8對于國產AI芯片有著怎樣的戰略意義？這可能不僅是技術追趕，更是參與制定未來AI計算標準、構建自主生態的關鍵機遇。
01AI計算進入“8位時代”的必然性
如今，大模型的算力饑渴與“內存墻”困境日益尖銳。模型參數規模指數級增長從千億到了萬億，大模型的“膨脹速度”堪稱“失控”：從BERT的3.4億參數到GPT-3的1750億，再到如今超萬億參數的模型，每兩年參數規模增長約240倍。但GPU顯存的增長卻像“蝸牛爬”——2016年P100僅12GB ， 2023年H200也才141GB ， 7年只翻了10倍。
這種“參數瘋漲、顯存龜速”的反差，讓訓練大模型成了“內存噩夢” 。比如訓練GPT-3 ，僅模型參數就需要650GB顯存，加上訓練時的梯度、動量等狀態（約1950GB），再算上中間計算的激活值（366GB），總需求超2900GB 。而單張A100 GPU只有80GB顯存，必須靠多卡并行，但卡越多，卡間通信又成了新瓶頸。
“存”“算”性能失配，內存墻導致訪存時延高，效率低。內存墻，指內存的容量或傳輸帶寬有限而嚴重限制 CPU 性能發揮的現象。內存的性能指標主要有“帶寬”(Bandwidth)和“等待時間”(Latency) 。近 20 年間，運算設備的算力提高了 90000 倍，提升非常快。雖然存儲器從 DDR 發展到 GDDR6x ，能夠用于顯卡、游戲終端和高性能運算，接口標準也從 PCIe1.0a 升級到 NVLink3.0 ，但是通訊帶寬的增長只有 30 倍，和算力相比提高幅度非常緩慢。
馮諾依曼架構下，數據傳輸導致嚴重的功耗損失。馮·諾依曼架構要求數據在存儲器單元和處理單元之間不斷地“讀寫” ，這樣數據在兩者之間來回傳輸就會消耗很多的傳輸功耗。根據英特爾的研究表明，當半導體工藝達到 7nm 時，數據搬運功耗高達 35pJ/bit ，占總功耗的63.7% 。數據傳輸造成的功耗損失越來越嚴重，限制了芯片發展的速度和效率，形成了“功耗墻”問題。
而FP8的優勢就是——效率與精度的完美平衡。
02FP8并非簡單的“砍位數”——技術內涵與設計挑戰
FP8（8位浮點數）格式正以其獨特的綜合優勢，成為推動AI計算邁向下一階段的關鍵技術。其核心價值可總結為：在效率與精度之間實現了前所未有的平衡。
首先， FP8帶來了極致的計算與存儲效率提升。與目前廣泛使用的FP16相比， FP8將內存占用直接減少50% ，顯著降低了內存帶寬壓力，使得在相同硬件條件下能夠處理更大規模的模型或更高批次的數據。這一改進不僅直接提升了推理和訓練速度，還大幅降低了系統功耗，對部署在邊緣設備或大規模數據中心中的AI應用都具有重要意義。特別是在內存帶寬經常成為瓶頸的AI加速器中， FP8的有效應用能夠釋放更大的算力潛力。
其次， FP8在壓縮數據的同時維持了可接受的數值精度。與純整數格式（如INT8）相比， FP8保留了浮點數的表示特點，具備更大的動態范圍和更靈活的精度分配，能夠更好地適應訓練過程中梯度計算、激活函數輸出等對數值范圍敏感的操作。這意味著盡管比特數較低， FP8仍能較好地維持模型訓練的穩定性和最終精度，減少因量化造成的性能損失，從而在提升效率的同時避免模型質量的顯著下降。
此外， FP8正在快速獲得全行業生態的支持。從 NVIDIA Hopper 架構和 H100 GPU 開始，多家芯片廠商已在其最新硬件中提供對FP8的原生支持。軟件和框架層面，主流深度學習框架（如TensorFlow和PyTorch）以及推理引擎正在積極集成FP8算子庫和優化工具鏈。這種從硬件到軟件、從訓練到推理的全面標準化，為開發者提供了統一的高效編程環境，進一步推動了FP8在各類模型中的普及。
FP8并非只是在現有格式基礎上簡單“減少比特” ，而是面向AI計算真實需求的一次系統級優化。它既解決了高性能計算對資源高效利用的迫切需求，又兼顧了模型精度保持的挑戰，正迅速成為AI訓練與推理領域的新標準。
FP8的兩種主流格式：

E5M2 (5位指數， 2位尾數)：動態范圍大，適合保存前向傳播的激活值（Activations）和權重（Weights）。
E4M3 (4位指數， 3位尾數)：精度更高，適合保存反向傳播的梯度（Gradients）。

當全球科技圈還在討論GPT-5的突破時，中國AI企業DeepSeek在官宣V3.1模型的留言區埋下了一顆重磅炸彈——\"UE8M0FP8是針對即將發布的下一代國產芯片設計\" 。
那國產芯片實現FP8的核心挑戰有哪些呢？首先是如何在ALU、Tensor Core等計算單元中高效支持兩種格式的混合運算。其次是編譯器、算子庫、驅動等如何無縫地將AI框架的指令映射到FP8硬件上；設計先進的量化工具鏈，確保模型從高精度到FP8轉換時的精度損失最小。最后是與現有生態的兼容：支持FP16/BF16等格式的平滑遷移和混合精度計算。
03國產AI芯片的FP8機遇：突圍與超越
FP8是相對較新的標準，國內外差距小于在CUDA生態上的差距，是難得的機遇窗口。
【“FP8 精度”如何賦能國產AI?】若以NVIDIA B100的FP8算力（14 petaFLOPS）為基準，在同等制程條件下， DeepSeark架構憑借算法與硬件的協同優化，預計可實現20%–30%的有效算力提升。需要說明的是，該推測目前仍基于已公開技術文檔，實際性能需以流片測試為準。
在生態建設方面，華為昇騰910B目前主要支持FP16和BF16格式，在FP8支持方面尚落后至少一代。 DeepSeek所采用的“模型即芯片”策略，本質上借鑒了谷歌TPU的成功經驗，但仍需應對諸如PyTorch量化工具鏈適配等實際工程挑戰。
從供應鏈安全角度考慮， FP8格式對計算精度要求相對較低，一定程度上降低了對晶體管密度的依賴，這一特點反而成為在國產制程條件下的一項差異化優勢。
以華為昇騰系列NPU為例，針對FP8設計的專用指令集使其在典型ResNet模型上的吞吐量提升40% ，同時單位算力的能耗降低至原來的1/3 。這種突破性進展源于兩大創新：一是硬件層面的亞穩態電路設計優化，解決了低比特下梯度消失的問題；二是軟件框架對混合精度訓練的支持，允許不同網絡層靈活切換FP8與其他格式。值得關注的是，寒武紀思元590等國產芯片已率先集成FP8加速模塊，標志著自主架構開始引領精度革新潮流。
DeepSeek的戰略布局揭示了一個關鍵邏輯：當英偉達A100/H100因出口管制而缺貨時，國產芯片廠商與下游用戶的深度綁定正在形成獨特競爭優勢。壁仞科技BR104、沐曦MXC500等新品均將FP8作為核心賣點，配合自研的編譯器工具鏈，可實現從模型轉換到部署落地的全流程無縫銜接。
當前，盡管IEEE P754等國際標準組織仍在積極推進FP8的規范化進程，但產業應用已明顯走在了標準制定的前面。以百度飛槳、智譜AI為代表的AI平臺已率先實現對FP8格式的默認支持，而在PyTorch等開源生態中，類似AutoFP8的自動化混合精度庫也在不斷涌現。這種以實際應用驅動、自下而上的技術擴散，為中國企業在AI基礎軟硬件領域爭取全球話語權打開了關鍵窗口期。如果能在未來一年半內實現三大關鍵突破——包括主流框架深度集成FP8、高質量開源模型示范驗證，以及國產硬件適配率突破50%——中國完全有能力主導一場以FP8為共識的生態變革。
然而， FP8的全面推廣仍面臨諸多現實阻力。部分業界觀點對其在復雜數據分布下的穩定性存疑，不同平臺間算子兼容性問題也尚未徹底解決。面對這些挑戰，一些企業如摩爾線程提出了“漸進式升級”的思路，通過容器化技術保障原有模型的兼容性，并引入動態剖分機制實現推理過程中不同精度策略的智能選擇。這類漸進式路徑不僅緩解了遷移成本高、風險大的核心痛點，也為FP8從試驗階段走向規模化落地贏得了更廣泛的支持與時間窗口。
DeepSeek此次技術路線的價值，在于證明了算法-硬件協同創新可能比單純追逐制程進步更具可行性，這或許只是中國AI算力自主化的第一步。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析，關注我們！