Meta 推出 Llama 3.2 1B / 3B 模型量化版：功耗更低、可适用更多轻量移动设备

2024-10-27 15:08:10

新智燎原

发布在

快讯

阅读：323

Meta公司于10月24日发布了Llama 3.2模型的量化版本，包括1B和3B两个版本，分别命名为Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant、Llama 3.2 3B QLoRA和Llama 3.2 3B SpinQuant。量化技术通过将浮点模型转换为定点模型，使得模型大小平均减少56%，RAM使用量减少41%，模型速度提高2至4倍，同时降低了功耗，使其适用于更多轻量级移动设备。Meta采用量化感知训练（QAT）和后训练量化（SpinQuant）两种方法进行模型优化，其中QAT更注重模型的准确性，SpinQuant则更强调模型的可移植性。尽管量化后模型仅支持8000个Token的上下文，而非原版的12.8万个Token，但其精度几乎与Llama BF16版本相同。目前，这些模型已在一加12、三星S24+/S22及部分苹果iOS设备上测试，结果显示运行效果良好。未来，研究人员计划利用神经处理单元进一步提升这些模型的性能。

原文链接

本文链接：https://kx.umi6.com/article/7917.html

转载请注明文章出处

Llama 3.2