4月18日,谷歌发布Gemna 3 QAT AI模型,通过量化感知训练显著降低显存需求。此前Gemma 3 27B模型显存需求高达54GB,经int4量化后锐减至14.1GB,12B模型从24GB降至6.6GB,1B模型仅需0.5GB。这使得普通硬件如RTX 3090显卡和RTX 4060 Laptop GPU能流畅运行,甚至手机也能支持小型模型。量化过程中,谷歌采用QAT技术,在训练中模拟低精度运算,确保模型压缩后仍保持高准确性,困惑度下降了54%。目前,Ollama、LM Studio和llama.cpp等平台已集成该模型,用户可通过Hugging Face和Kaggle获取官方int4和Q4_0版本,Apple Silicon和CPU亦可运行。Gemmaverse社区提供更多量化选项,满足多样化需求。
原文链接
本文链接:https://kx.umi6.com/article/17457.html
转载请注明文章出处
相关推荐
换一换
27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行
2025-04-19 10:40:22
中信建投:2026年金价或弱于2025年 值得期待的是铜
2026-01-22 08:45:48
融捷股份等成立新公司 含多项AI业务
2026-01-22 15:00:25
AI时代教育被质疑导致“新寒门” 阿里千问回应:不存在!
2026-01-23 11:49:50
成立两年半登顶全球AI创作社区,背后是中国团队在“卖情绪”??
2026-01-22 20:08:53
AI推理GPU芯片公司曦望完成近30亿元融资
2026-01-22 16:05:02
中国电信等在天津成立低空量子网络科技发展公司
2026-01-23 10:50:21
NVIDIA黄仁勋:未来的电脑比现在强10亿倍
2026-01-21 23:29:50
上海:适度超前布局建设新型信息基础设施 纵深推动“5G+工业互联网”
2026-01-23 10:48:11
OpenAI已建立人形机器人实验室 启动以来规模扩大四倍多
2026-01-22 21:11:56
Node.js之父:手写代码已死
2026-01-22 14:57:11
昇腾云客户2663家,华为云稳居最大国产AI云服务提供商
2026-01-22 17:01:32
九骏踏浪,海淀这片“创新深海”做了啥?
2026-01-23 19:08:58
609 文章
409506 浏览
24小时热文
更多
-
2026-01-23 20:15:45 -
2026-01-23 20:14:36 -
2026-01-23 20:13:28