4月18日,谷歌发布Gemna 3 QAT AI模型,通过量化感知训练显著降低显存需求。此前Gemma 3 27B模型显存需求高达54GB,经int4量化后锐减至14.1GB,12B模型从24GB降至6.6GB,1B模型仅需0.5GB。这使得普通硬件如RTX 3090显卡和RTX 4060 Laptop GPU能流畅运行,甚至手机也能支持小型模型。量化过程中,谷歌采用QAT技术,在训练中模拟低精度运算,确保模型压缩后仍保持高准确性,困惑度下降了54%。目前,Ollama、LM Studio和llama.cpp等平台已集成该模型,用户可通过Hugging Face和Kaggle获取官方int4和Q4_0版本,Apple Silicon和CPU亦可运行。Gemmaverse社区提供更多量化选项,满足多样化需求。
原文链接
本文链接:https://kx.umi6.com/article/17457.html
转载请注明文章出处
相关推荐
.png)
换一换
中国联通发布全球最长距离大模型异构混训成果:超 1500 公里跨域,仅损失不到 5% 算力
2025-07-20 10:02:01
2025 中国联通合作伙伴大会举行,高通侯明娟:AI 正从“看得见”迈向“用得上、用得起”
2025-07-19 17:55:01
AI陪伴玩具 是营销噱头还是“情感伙伴”?|一线
2025-07-18 09:37:47
416 文章
75616 浏览
24小时热文
更多

-
2025-07-20 13:03:48
-
2025-07-20 12:02:31
-
2025-07-20 10:03:13