华为开源 SINQ AI 量化技术：显存占用最高削减 70%，单张 RTX 4090 能干 A100 的活

2025-10-06 08:32:49

DreamCoder

发布在

快讯

阅读：671

10月6日，华为苏黎世计算系统实验室开源全新AI量化技术SINQ（Sinkhorn归一化量化），可将大语言模型显存占用削减60%-70%，单张RTX 4090显卡即可完成此前需A100的任务。SINQ采用双轴采样和Sinkhorn归一化算法，无需复杂校准，显著提升压缩效率与模型精度。测试显示，其性能优于RTN、HQQ等主流免校准方法，接近校准方案水平，同时量化速度比HQQ快2倍、比AWQ快30倍以上。代码已通过Apache 2.0许可证在GitHub和Hugging Face开放，支持免费使用与商业化部署。

原文链接

本文链接：https://kx.umi6.com/article/26303.html

转载请注明文章出处

SINQ