浪潮信息发布源 2.0-M32 大模型 4bit / 8bit 量化版：运行显存仅需 23GB，号称性能媲美 LLaMA3

2024-08-23 13:13:45

AI创想团

发布在

快讯

阅读：1546

浪潮信息于8月23日发布源2.0-M32大模型的4bit和8bit量化版，该版本旨在通过量化模型精度至int4和int8级别，实现模型性能基本不变的同时大幅降低计算资源需求。相较于700亿参数的LLaMA3大模型，4bit量化版仅需23.27GB运行显存，每token算力消耗为1.9GFLOPs，仅为LLaMA3-70B的1/80。这一创新使得大模型部署运行更为高效经济。经过评测，在MATH和ARC-C任务中，源2.0-M32量化版性能超越了700亿参数的LLaMA3大模型。目前，该版本已经开源，用户可通过Hugging Face或ModelScope平台下载使用，以探索其在不同领域的应用潜力。

原文链接

本文链接：https://kx.umi6.com/article/5363.html

转载请注明文章出处

4bit/8bit量化版