标题:清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐
清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ,支持8比特和4比特混合精度推理,实现近无损量化并提升推理吞吐。MixQ利用低精度张量核心(INT8/INT4 Tensor Core)加速推理,同时提取激活中的离群值,使用高精度张量核心(FP16 Tensor Core)保持推理准确性。
MixQ已支持多个主流大模型,包括LLaMA3、Qwen2、Baichuan2、ChatGLM等。研究团队提供了基于VLLM和Tensorrt-LLM的混合精度推理,用户可一键部署模型。MixQ在多个测试中表现出色,端到端吞吐量比AWQ提升6倍,且与Bitsandbytes相比,MixQ 8比特kernel性能提升1.9倍,4比特kernel性能达724TFLOPs,是FP16的3.13倍。
MixQ的核心思想是基于离群点的局部性对混合精度计算图进行等价变换,从而避免离群点查找的额外开销。此外,通过图层融合和高效的数据结构降低访存开销,并使用CUTLASS生成高性能的混合精度算子,进一步提升系统性能。MixQ已在多个大模型中验证,准确率与Bitsandbytes一致,性能显著提升。项目地址: 1. https://github.com/Qcompiler/MixQ_Tensorrt_LLM 2. https://github.com/Qcompiler/MIXQ 3. https://github.com/Qcompiler/vllm-mixed-precision
原文链接
本文链接:https://kx.umi6.com/article/7609.html
转载请注明文章出处
相关推荐
换一换
Scaling Law终结,量化也不管用,AI大佬都在审视这篇论文
2024-11-13 16:46:53
微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑,性能与同规模全精度开源模型相当
2025-04-21 12:38:13
大模型应用新战场:揭秘终端侧AI竞争关键|智在终端
2024-09-04 16:29:42
量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了
2024-11-16 20:37:04
Claude翻车:Opus 4.1白天退化,Anthropic承认并回滚更新
2025-09-01 18:21:10
突破瓶颈!北航ETH等首次将扩散模型完全量化至1bit,28倍存储节省+52.7倍效率提升
2025-01-11 12:37:26
Meta 推出 Llama 3.2 1B / 3B 模型量化版:功耗更低、可适用更多轻量移动设备
2024-10-27 15:08:10
今日最热论文:Scaling Law终结,量化也不管用,AI大佬齐刷刷附议
2024-11-13 15:39:06
SU 哈佛亚马逊最新研究:量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了
2024-11-16 16:31:57
印度男子打造AI女网红狂骗美国寂寞男:吸引超百万粉丝
2026-04-23 08:55:54
RAM——复杂场景下多人3D人体运动重建新框架 | CVPR 2026
2026-04-24 14:15:34
新模型上线期间出现功能异常 月之暗面公布补偿方案:全员额度重置
2026-04-22 22:32:08
科大讯飞发布燎原N30m笔记本,重塑全栈国产AIPC新标杆
2026-04-22 21:27:36
729 文章
622765 浏览
24小时热文
更多
-
2026-04-24 23:43:31 -
2026-04-24 23:42:26 -
2026-04-24 23:41:21