单卡搞定Llama 3.1 405B，让大模型轻松瘦身！超强压缩工具包来了

2024-08-02 17:05:22

新智燎原

发布在

科普

阅读：205

单卡搞定Llama 3.1 405B，让大模型轻松瘦身！超强压缩工具包来了

近期，Llama-3.1登顶开源领域，其405B版本模型对资源提出了更高要求，高达900多GB的内存需求。为应对这一挑战，北航、商汤、南洋理工等团队联手研发出大模型压缩工具与基准LLMC，使一张80G A100显卡就能完成Llama 3.1 405B的校准与评估，实现了以极低成本进行量化。

LLMC支持多种压缩算法、模型和推理后端，具备强大扩展性和全面评估能力。研究团队已将使用方法上传至GitHub主页，感兴趣者可访问获取。

研究发现，Llama 3.1系列模型的量化精度下降与激活张量中显著的离群值或异常值有关。随着模型体积增大，这些异常值现象愈发严重。借助LLMC工具，研究团队对Llama 3.1系列模型（8B、70B、405B）的四个关键层的输入激活张量进行了可视化，显示了不同模型中激活张量存在outlier的趋势。

LLMC工具集涵盖了包括AWQ、SmoothQuant、OS+、QuaRot在内的多种抑制大模型异常值的量化算法，显著提高了Llama 3.1的量化精度。在405B模型W8A8量化上，这些方法几乎达到了与浮点模型相同的精度水平。

LLMC框架支持16种不同的量化方法，适用于权重、权重激活和混合精度量化，兼容多种硬件友好压缩算法。团队通过实验验证了LLMC在性能上的可靠性，与原始论文/代码一致。此外，LLMC工具以超低成本运行大型模型，仅需单台80G A100显卡即可完成校准与评估。

LLMC工具包支持多种量化设置和模型格式，兼容多个后端和硬件平台，如LightLLM、TRT-LLM、PPL-LLM、vLLM、MLC-TVM和llama.cpp，具有高度通用性。其模块化设计允许用户自定义，以适应从整数量化到浮点量化、从密集模型到专家混合（MoE）模型、从LLM到视觉语言模型（VLM）的多样需求。

LLMC提供了全面的评估功能，包括困惑度（PPL）、数据可视化分析、峰度值（Kurtosis）、误差和异常值分布等，帮助用户做出明智的压缩策略决策。

综上所述，LLMC是一个功能强大、支持多种算法和后端的压缩工具包，简化了大模型的瘦身过程，便于研究人员和普通用户在应用中集成合适的算法和对应后端平台。工具地址：GitHub，论文地址：Arxiv。

原文链接

本文链接：https://kx.umi6.com/article/4461.html

转载请注明文章出处

LLMC