1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了

近期,Llama-3.1登顶开源领域,其405B版本模型对资源提出了更高要求,高达900多GB的内存需求。为应对这一挑战,北航、商汤、南洋理工等团队联手研发出大模型压缩工具与基准LLMC,使一张80G A100显卡就能完成Llama 3.1 405B的校准与评估,实现了以极低成本进行量化。

LLMC支持多种压缩算法、模型和推理后端,具备强大扩展性和全面评估能力。研究团队已将使用方法上传至GitHub主页,感兴趣者可访问获取。

研究发现,Llama 3.1系列模型的量化精度下降与激活张量中显著的离群值或异常值有关。随着模型体积增大,这些异常值现象愈发严重。借助LLMC工具,研究团队对Llama 3.1系列模型(8B、70B、405B)的四个关键层的输入激活张量进行了可视化,显示了不同模型中激活张量存在outlier的趋势。

LLMC工具集涵盖了包括AWQ、SmoothQuant、OS+、QuaRot在内的多种抑制大模型异常值的量化算法,显著提高了Llama 3.1的量化精度。在405B模型W8A8量化上,这些方法几乎达到了与浮点模型相同的精度水平。

LLMC框架支持16种不同的量化方法,适用于权重、权重激活和混合精度量化,兼容多种硬件友好压缩算法。团队通过实验验证了LLMC在性能上的可靠性,与原始论文/代码一致。此外,LLMC工具以超低成本运行大型模型,仅需单台80G A100显卡即可完成校准与评估。

LLMC工具包支持多种量化设置和模型格式,兼容多个后端和硬件平台,如LightLLM、TRT-LLM、PPL-LLM、vLLM、MLC-TVM和llama.cpp,具有高度通用性。其模块化设计允许用户自定义,以适应从整数量化到浮点量化、从密集模型到专家混合(MoE)模型、从LLM到视觉语言模型(VLM)的多样需求。

LLMC提供了全面的评估功能,包括困惑度(PPL)、数据可视化分析、峰度值(Kurtosis)、误差和异常值分布等,帮助用户做出明智的压缩策略决策。

综上所述,LLMC是一个功能强大、支持多种算法和后端的压缩工具包,简化了大模型的瘦身过程,便于研究人员和普通用户在应用中集成合适的算法和对应后端平台。工具地址:GitHub,论文地址:Arxiv

原文链接
本文链接:https://kx.umi6.com/article/4461.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
2024-08-02 17:05:22
上交大冷静文:模型发展需要和芯片、系统厂商协同
2025-04-30 20:26:59
中信建投:计算机板块上半年业绩持续改善 看好AI软件&硬件、信创等板块投资机会
2025-09-05 09:17:05
港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025
2025-09-04 19:05:34
OpenAI今年预计通过ChatGPT实现近100亿美元收入,机构称GPT-5将给硬件和应用端这些企业带来机遇
2025-09-06 16:37:17
腾讯混元游戏 2.0 发布:图片秒变动画 / CG,全面开放使用
2025-09-05 17:21:54
AI生成苹果Metal内核,PyTorch推理速度提升87%
2025-09-05 11:17:03
消息称 DeepSeek 正开发更先进模型:具备 AI 智能体能力,剑指年底发布
2025-09-04 18:07:12
中盐集团与中国移动签署战略合作协议
2025-09-05 11:18:12
支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统
2025-09-05 21:25:03
不寒而栗!AI克隆盗用别人声音 去卖不可描述保健品
2025-09-05 17:23:07
导演宁浩称自己看病先问 DeepSeek,作家余华则用豆包
2025-09-04 20:07:22
OpenAI宣布推出AI在线招聘平台,和微软的领英打起来了
2025-09-05 10:16:42
24小时热文
更多
扫一扫体验小程序