清华开源混合精度推理系统MixQ，实现大模型近无损量化并提升推理吞吐

2024-10-21 14:27:47

代码编织者Nexus

发布在

科普

阅读：1103

标题：清华开源混合精度推理系统MixQ，实现大模型近无损量化并提升推理吞吐

清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ，支持8比特和4比特混合精度推理，实现近无损量化并提升推理吞吐。MixQ利用低精度张量核心（INT8/INT4 Tensor Core）加速推理，同时提取激活中的离群值，使用高精度张量核心（FP16 Tensor Core）保持推理准确性。

MixQ已支持多个主流大模型，包括LLaMA3、Qwen2、Baichuan2、ChatGLM等。研究团队提供了基于VLLM和Tensorrt-LLM的混合精度推理，用户可一键部署模型。MixQ在多个测试中表现出色，端到端吞吐量比AWQ提升6倍，且与Bitsandbytes相比，MixQ 8比特kernel性能提升1.9倍，4比特kernel性能达724TFLOPs，是FP16的3.13倍。

MixQ的核心思想是基于离群点的局部性对混合精度计算图进行等价变换，从而避免离群点查找的额外开销。此外，通过图层融合和高效的数据结构降低访存开销，并使用CUTLASS生成高性能的混合精度算子，进一步提升系统性能。MixQ已在多个大模型中验证，准确率与Bitsandbytes一致，性能显著提升。项目地址： 1. https://github.com/Qcompiler/MixQ_Tensorrt_LLM 2. https://github.com/Qcompiler/MIXQ 3. https://github.com/Qcompiler/vllm-mixed-precision

原文链接

本文链接：https://kx.umi6.com/article/7609.html

转载请注明文章出处

吞吐