OpenAI采用新數據類型MXFP4,推理成本降低75%

OpenAI采用新數據類型MXFP4,推理成本降低75%

無論OpenAI的新開放權重模型性能如何 , 其采用的相對較新的數據類型MXFP4可能更為重要 , 尤其是如果這種技術在OpenAI的競爭對手中得到推廣的話 。
相比大語言模型傳統使用的數據類型 , MXFP4格式承諾能夠大幅節省計算成本 , 允許云服務提供商或企業僅用四分之一的硬件來運行模型 。
**什么是MXFP4?**
如果你從未聽說過MXFP4 , 這是因為雖然它已經開發了一段時間 , 但OpenAI的gpt-oss模型是首批利用這一技術的主流大語言模型之一 。
MXFP4是由開放計算項目(OCP)定義的4位浮點數據類型 。 OCP是由Facebook于2011年發起的超大規模數據中心聯盟 , 旨在讓數據中心組件更便宜、更易獲得 。 具體來說 , MXFP4是一種微縮放塊浮點格式 , 因此名稱是MXFP4而不是簡單的FP4 。
這種微縮放功能相當重要 , 因為FP4本身無法提供太多精度 。 僅有四位——一位符號位、兩位指數位和一位尾數位——它只能表示16個不同的值:8個正值和8個負值 。 相比之下 , BF16可以表示65536個值 。
通過巧妙的數學運算 , MXFP4能夠表示更廣泛的數值范圍 。 MXFP4量化的工作原理是取一個高精度值塊(默認為32個) , 并用8位二進制指數形式的公共縮放因子對其進行乘法運算 。
在推理過程中 , 這些數值會通過將其4位浮點值的倒數與縮放因子相乘來實時反量化 。 雖然仍會遇到舍入誤差 , 但精度仍比標準FP4高得多 。
**MXFP4的重要性**
MXFP4之所以重要 , 是因為權重越小 , 運行模型所需的顯存、內存帶寬和計算量就越少 。 換句話說 , MXFP4讓生成式AI變得更加便宜 。
與目前大語言模型最常用的數據類型BF16相比 , MXFP4可將計算和內存需求減少約75% 。 根據gpt-oss模型卡片 , OpenAI對約90%的模型權重應用了MXFP4量化 。 這使得他們能夠將1200億參數的模型裝入僅有80GB顯存的GPU中 , 或將200億參數的較小版本裝入僅有16GB內存的GPU中 。
【OpenAI采用新數據類型MXFP4,推理成本降低75%】通過將gpt-oss量化為MXFP4 , 該大語言模型不僅比同等規模的BF16訓練模型占用的內存少4倍 , Token生成速度也可以提升4倍 。
**OpenAI引領潮流**
量化并不是新概念 。 模型開發者已經發布FP8甚至4位量化版本的模型有一段時間了 。 然而 , 這些量化版本通常被視為一種妥協 , 因為較低的精度必然伴隨著質量損失 。
研究反復表明 , 對于大語言模型而言 , 從16位降到8位的質量損失基本可以忽略不計 。 事實上 , 一些模型構建者如DeepSeek已經開始原生使用FP8訓練模型 。
雖然MXFP4比標準FP4好得多 , 但它并不一定是萬能的解決方案 。 英偉達認為 , 該數據類型與FP8相比仍可能出現質量下降 , 部分原因是其32值塊大小不夠精細 。 為解決這個問題 , 這家GPU巨頭推出了自己的微縮放數據類型NVFP4 , 旨在通過使用16值塊和FP8縮放因子來提高質量 。
對于gpt-oss , OpenAI已經做出了選擇 。 沒有BF16或FP8版本的模型 , 只有MXFP4版本 。 鑒于OpenAI在市場中的重要地位 , 他們基本上在說:如果MXFP4對我們來說足夠好 , 那對你們也應該足夠好 。
這無疑是為負責服務這些模型的基礎設施提供商帶來的好消息 。 在那之前 , OpenAI可以宣傳其開放模型比其他人的模型更容易運行 , 以及如何利用支持FP4數據類型的英偉達和AMD新芯片 。
Q&A
Q1:MXFP4數據類型是什么?它有什么優勢?
A:MXFP4是由開放計算項目定義的4位浮點數據類型 , 是一種微縮放塊浮點格式 。 相比大語言模型傳統使用的BF16數據類型 , MXFP4可將計算和內存需求減少約75% , 讓生成式AI運行成本大幅降低 , 同時Token生成速度可提升4倍 。
Q2:OpenAI的gpt-oss模型為什么只提供MXFP4版本?
A:OpenAI在gpt-oss模型中只提供MXFP4版本 , 沒有BF16或FP8版本 。 鑒于OpenAI在市場中的重要地位 , 他們通過這種做法向業界傳達信息:如果MXFP4對OpenAI來說足夠好 , 那對其他人也應該足夠好 , 從而推動這一技術標準的普及 。
Q3:使用MXFP4會不會影響模型質量?
A:雖然較低精度通常伴隨質量損失 , 但研究表明從16位降到8位的質量損失基本可以忽略不計 。 MXFP4雖然比標準FP4好得多 , 但與FP8相比仍可能出現一定的質量下降 , 這主要是因為其32值塊大小不夠精細造成的 。

    推薦閱讀