
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
浪潮信息于8月23日发布源2.0-M32大模型的4bit和8bit量化版,该版本旨在通过量化模型精度至int4和int8级别,实现模型性能基本不变的同时大幅降低计算资源需求。相较于700亿参数的LLaMA3大模型,4bit量化版仅需23.27GB运行显存,每token算力消耗为1.9GFLOPs,仅为LLaMA3-70B的1/80。这一创新使得大模型部署运行更为高效经济。经过评测,在MATH和ARC-C任务中,源2.0-M32量化版性能超越了700亿参数的LLaMA3大模型。目前,该版本已经开源,用户可通过Hugging Face或ModelScope平台下载使用,以探索其在不同领域的应用潜力。
原文链接
加载更多

暂无内容