QAT - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

27B 显存需求 54 → 14.1GB：谷歌发布 Gemma 3 QAT AI 模型，RTX 3090 显卡可运行

4月18日，谷歌发布Gemna 3 QAT AI模型，通过量化感知训练显著降低显存需求。此前Gemma 3 27B模型显存需求高达54GB，经int4量化后锐减至14.1GB，12B模型从24GB降至6.6GB，1B模型仅需0.5GB。这使得普通硬件如RTX 3090显卡和RTX 4060 Laptop GPU能流畅运行，甚至手机也能支持小型模型。量化过程中，谷歌采用QAT技术，在训练中模拟低精度运算，确保模型压缩后仍保持高准确性，困惑度下降了54%。目前，Ollama、LM Studio和llama.cpp等平台已集成该模型，用户可通过Hugging Face和Kaggle获取官方int4和Q4_0版本，Apple Silicon和CPU亦可运行。Gemmaverse社区提供更多量化选项，满足多样化需求。

原文链接