标题:首次系统评估Qwen3在量化下的鲁棒性:8bit下仍保持近乎无损性能
北航联合团队投稿,量子位公众号发布
Qwen3刷新开源模型SOTA,但如何在资源受限场景中实现低比特量化且性能不掉线?来自北航、西电和苏黎世联邦理工的联合团队找到破局关键。他们首次系统评估Qwen3的5种后训练量化技术,涵盖1至8比特位宽及多个数据集,并与LLaMA3对比。
研究发现,Qwen3在中度位宽下表现强劲,但在超低精度下性能显著下降,与LLaMA3相比差异更大,亟需解决方案减轻损失。
Qwen3由阿里开发,基于Transformer架构,是极具竞争力的开源LLM。最新版本参数规模从6亿到2350亿不等,通过多样化语料库预训练提升性能,成为开源LLM中的佼佼者。但其高计算和内存需求限制了实际部署,低比特量化成为重要技术。
团队测试了5种经典PTQ方法,包括RTN、GPTQ、AWQ、SmoothQuant和BiLLM,覆盖1到8比特位宽,并评估多种语言任务。研究旨在评估量化性能权衡、识别最佳方法、突出挑战,特别是超低比特场景。
团队评估了Qwen3后训练模型及预训练版本的低比特量化性能,使用1块NVIDIA A800 80GB GPU确保一致条件。实验保持校准数据、通道分组和量化位宽一致性,全面比较各方法。
结果显示,在8比特时,Qwen3保持接近无损性能;4比特时性能明显下降;3比特下AWQ尚可,但大部分优势丧失;2比特仅GPTQ维持最低性能。二值化方法BiLLM在32B模型中表现亮眼。
激活量化显示,经典方法在w4a8下性能显著下降。大模型在量化下更稳定,Qwen3-14B在4比特GPTQ下仅下降1%,而Qwen3-0.6B下降约10%。与LLaMA3对比,Qwen3在低比特量化下性能下降更明显。
实验表明,Qwen3在高位宽下表现良好,但在3比特或以下性能下降显著,这与其先进预训练技术生成较少冗余表示有关。研究强调量化技术需创新,权衡模型压缩与性能保留需重新考量。未来,团队计划评估更高级量化方法以优化性能。
论文链接:https://arxiv.org/pdf/2505.02214
项目链接:https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b
.png)

-
2025-07-20 12:02:31
-
2025-07-20 10:03:13
-
2025-07-20 10:02:01