華為蘇黎世團隊發布開源SINQ量化技術，顯著降低大模型顯存占用_安卓|小米科技|vivo

華為位于蘇黎世的研究團隊近日公布了一種新型開源量化技術，能夠在保持大語言模型輸出質量的同時顯著降低顯存占用。該方法命名為SINQ（Sinkhorn-Normalized Quantization），目前已通過GitHub與Hugging Face平臺向公眾開放，遵循Apache 2.0許可協議，支持個人、企業及科研機構自由使用、修改并用于商業場景。
SINQ的主要特點在于無需依賴校準過程、執行效率高，并可便捷地融入現有的模型部署流程。通過創新的量化機制，該技術能將模型運行所需的顯存減少60%至70% ，具體壓縮效果因模型結構和量化位寬而異。這一優化使得原本需超過60GB顯存支持的大型模型，可在約20GB顯存的設備上順利運行。
得益于顯存需求的大幅下降，原先只能在高端數據中心級GPU（如A100或H100）上部署的大模型，現可遷移至消費級硬件環境，例如單張RTX 4090顯卡即可承載，為更多研究者和開發者提供了低成本實驗與應用的可能性。
該方法已在多個主流模型架構上完成驗證，涵蓋Qwen3系列、LLaMA以及DeepSeek等，在WikiText2和C4等標準評估基準中表現優異，有效降低了困惑度與權重翻轉率。同時， SINQ支持非對稱量化格式（如NF4），也可與現有校準策略（如AWQ）協同使用，進一步縮小與全精度模型之間的性能差距。
在量化速度方面， SINQ相較HQQ提升約一倍，較AWQ提速超過30倍，展現出極高的處理效率，尤其適用于對時間成本敏感的實際研究和生產場景。
【華為蘇黎世團隊發布開源SINQ量化技術，顯著降低大模型顯存占用】(10576024)

華為蘇黎世團隊發布開源SINQ量化技術，顯著降低大模型顯存占用

推薦閱讀

黑芝麻餡料怎么做

順風局和逆風局什么意思

ppt能放視頻嗎

男生抽條是什么意思

天貓同意換貨會預留庫存嗎商家同意換貨時有留庫存嗎

微信收不到公眾號的紅包

不是武漢戶口可以在武漢買房嗎

夢見洞房洞房花燭

開齋2021年是哪一天開齋2021年是幾月幾日

鍵盤怎么切換中文輸入法鍵盤如何切換中文輸入法

建成房屋如何挖地下室

麥昆小白鞋黃斑怎么去

保定在哪里捐獻血小板,他又沖回機采室捐獻血小板

公共營養師成績查詢，國家公共營養師好考么公共的和私人的有什么區別

我買了堅果手機，感覺系統好像沒有過度動畫

去盧旺達旅游花多少錢，去迪拜旅游一次要多少錢