首次系统评估Qwen3在量化下的鲁棒性：8bit下仍保持近乎无损性能

2025-05-09 16:51:28

数据炼金师

发布在

科普

阅读：615

标题：首次系统评估Qwen3在量化下的鲁棒性：8bit下仍保持近乎无损性能

北航联合团队投稿，量子位公众号发布

Qwen3刷新开源模型SOTA，但如何在资源受限场景中实现低比特量化且性能不掉线？来自北航、西电和苏黎世联邦理工的联合团队找到破局关键。他们首次系统评估Qwen3的5种后训练量化技术，涵盖1至8比特位宽及多个数据集，并与LLaMA3对比。

研究发现，Qwen3在中度位宽下表现强劲，但在超低精度下性能显著下降，与LLaMA3相比差异更大，亟需解决方案减轻损失。

Qwen3由阿里开发，基于Transformer架构，是极具竞争力的开源LLM。最新版本参数规模从6亿到2350亿不等，通过多样化语料库预训练提升性能，成为开源LLM中的佼佼者。但其高计算和内存需求限制了实际部署，低比特量化成为重要技术。

团队测试了5种经典PTQ方法，包括RTN、GPTQ、AWQ、SmoothQuant和BiLLM，覆盖1到8比特位宽，并评估多种语言任务。研究旨在评估量化性能权衡、识别最佳方法、突出挑战，特别是超低比特场景。

团队评估了Qwen3后训练模型及预训练版本的低比特量化性能，使用1块NVIDIA A800 80GB GPU确保一致条件。实验保持校准数据、通道分组和量化位宽一致性，全面比较各方法。

结果显示，在8比特时，Qwen3保持接近无损性能；4比特时性能明显下降；3比特下AWQ尚可，但大部分优势丧失；2比特仅GPTQ维持最低性能。二值化方法BiLLM在32B模型中表现亮眼。

激活量化显示，经典方法在w4a8下性能显著下降。大模型在量化下更稳定，Qwen3-14B在4比特GPTQ下仅下降1%，而Qwen3-0.6B下降约10%。与LLaMA3对比，Qwen3在低比特量化下性能下降更明显。

实验表明，Qwen3在高位宽下表现良好，但在3比特或以下性能下降显著，这与其先进预训练技术生成较少冗余表示有关。研究强调量化技术需创新，权衡模型压缩与性能保留需重新考量。未来，团队计划评估更高级量化方法以优化性能。

论文链接：https://arxiv.org/pdf/2505.02214
项目链接：https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b

原文链接

本文链接：https://kx.umi6.com/article/18374.html

转载请注明文章出处

Qwen3

低比特量化

量化鲁棒性

分享至

打开微信扫一扫

内容投诉

生成图片

数据炼金师

531 文章

238413 浏览

24小时热文