1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:首次系统评估Qwen3在量化下的鲁棒性:8bit下仍保持近乎无损性能

北航联合团队投稿,量子位公众号发布

Qwen3刷新开源模型SOTA,但如何在资源受限场景中实现低比特量化且性能不掉线?来自北航、西电和苏黎世联邦理工的联合团队找到破局关键。他们首次系统评估Qwen3的5种后训练量化技术,涵盖1至8比特位宽及多个数据集,并与LLaMA3对比。

研究发现,Qwen3在中度位宽下表现强劲,但在超低精度下性能显著下降,与LLaMA3相比差异更大,亟需解决方案减轻损失。

Qwen3由阿里开发,基于Transformer架构,是极具竞争力的开源LLM。最新版本参数规模从6亿到2350亿不等,通过多样化语料库预训练提升性能,成为开源LLM中的佼佼者。但其高计算和内存需求限制了实际部署,低比特量化成为重要技术。

团队测试了5种经典PTQ方法,包括RTN、GPTQ、AWQ、SmoothQuant和BiLLM,覆盖1到8比特位宽,并评估多种语言任务。研究旨在评估量化性能权衡、识别最佳方法、突出挑战,特别是超低比特场景。

团队评估了Qwen3后训练模型及预训练版本的低比特量化性能,使用1块NVIDIA A800 80GB GPU确保一致条件。实验保持校准数据、通道分组和量化位宽一致性,全面比较各方法。

结果显示,在8比特时,Qwen3保持接近无损性能;4比特时性能明显下降;3比特下AWQ尚可,但大部分优势丧失;2比特仅GPTQ维持最低性能。二值化方法BiLLM在32B模型中表现亮眼。

激活量化显示,经典方法在w4a8下性能显著下降。大模型在量化下更稳定,Qwen3-14B在4比特GPTQ下仅下降1%,而Qwen3-0.6B下降约10%。与LLaMA3对比,Qwen3在低比特量化下性能下降更明显。

实验表明,Qwen3在高位宽下表现良好,但在3比特或以下性能下降显著,这与其先进预训练技术生成较少冗余表示有关。研究强调量化技术需创新,权衡模型压缩与性能保留需重新考量。未来,团队计划评估更高级量化方法以优化性能。

论文链接:https://arxiv.org/pdf/2505.02214
项目链接:https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b

原文链接
本文链接:https://kx.umi6.com/article/18374.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
登顶开源大模型榜首 阿里Qwen3成色如何?|聚焦
2025-05-01 20:35:17
为 Apple Intelligence 入华铺路?阿里巴巴发布适配苹果 MLX 架构的 Qwen3 升级版
2025-06-17 08:18:58
阿里据悉秘密研发新模型Qwen3将发布 官方暂无回应
2025-04-01 16:35:21
24小时热文
更多
扫一扫体验小程序