1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:首次系统评估Qwen3在量化下的鲁棒性:8bit下仍保持近乎无损性能

北航联合团队投稿,量子位公众号发布

Qwen3刷新开源模型SOTA,但如何在资源受限场景中实现低比特量化且性能不掉线?来自北航、西电和苏黎世联邦理工的联合团队找到破局关键。他们首次系统评估Qwen3的5种后训练量化技术,涵盖1至8比特位宽及多个数据集,并与LLaMA3对比。

研究发现,Qwen3在中度位宽下表现强劲,但在超低精度下性能显著下降,与LLaMA3相比差异更大,亟需解决方案减轻损失。

Qwen3由阿里开发,基于Transformer架构,是极具竞争力的开源LLM。最新版本参数规模从6亿到2350亿不等,通过多样化语料库预训练提升性能,成为开源LLM中的佼佼者。但其高计算和内存需求限制了实际部署,低比特量化成为重要技术。

团队测试了5种经典PTQ方法,包括RTN、GPTQ、AWQ、SmoothQuant和BiLLM,覆盖1到8比特位宽,并评估多种语言任务。研究旨在评估量化性能权衡、识别最佳方法、突出挑战,特别是超低比特场景。

团队评估了Qwen3后训练模型及预训练版本的低比特量化性能,使用1块NVIDIA A800 80GB GPU确保一致条件。实验保持校准数据、通道分组和量化位宽一致性,全面比较各方法。

结果显示,在8比特时,Qwen3保持接近无损性能;4比特时性能明显下降;3比特下AWQ尚可,但大部分优势丧失;2比特仅GPTQ维持最低性能。二值化方法BiLLM在32B模型中表现亮眼。

激活量化显示,经典方法在w4a8下性能显著下降。大模型在量化下更稳定,Qwen3-14B在4比特GPTQ下仅下降1%,而Qwen3-0.6B下降约10%。与LLaMA3对比,Qwen3在低比特量化下性能下降更明显。

实验表明,Qwen3在高位宽下表现良好,但在3比特或以下性能下降显著,这与其先进预训练技术生成较少冗余表示有关。研究强调量化技术需创新,权衡模型压缩与性能保留需重新考量。未来,团队计划评估更高级量化方法以优化性能。

论文链接:https://arxiv.org/pdf/2505.02214
项目链接:https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b

原文链接
本文链接:https://kx.umi6.com/article/18374.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
苹果AI新进展:Qwen3已全面“登陆”苹果MLX框架
2025-06-17 18:38:23
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了
2025-09-04 16:02:51
为 Apple Intelligence 入华铺路?阿里巴巴发布适配苹果 MLX 架构的 Qwen3 升级版
2025-06-17 08:18:58
阿里Qwen3问鼎开源王座!8款模型全面开放,最大杯全方位超越R1
2025-04-30 18:54:08
首次系统评估Qwen3在量化下的鲁棒性:8bit下仍保持近乎无损性能
2025-05-09 16:51:28
全网首测!Qwen3 vs Deepseek-R1数据分析哪家强?
2025-04-30 19:01:00
登顶开源大模型榜首 阿里Qwen3成色如何?|聚焦
2025-05-01 20:35:17
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
2025-05-14 16:17:10
Qwen3小升级即SOTA,开源大模型王座快变中国内部赛了
2025-07-22 13:34:56
阿里秘密研发新模型将发布,影响力指标成最重要考核
2025-04-01 15:34:24
Qwen3真香!通义App满血接入,一手实测在此
2025-04-30 19:02:05
阿里据悉秘密研发新模型Qwen3将发布 官方暂无回应
2025-04-01 16:35:21
深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星
2025-05-05 09:42:37
24小时热文
更多
扫一扫体验小程序