标题:清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐
清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ,支持8比特和4比特混合精度推理,实现近无损量化并提升推理吞吐。MixQ利用低精度张量核心(INT8/INT4 Tensor Core)加速推理,同时提取激活中的离群值,使用高精度张量核心(FP16 Tensor Core)保持推理准确性。
MixQ已支持多个主流大模型,包括LLaMA3、Qwen2、Baichuan2、ChatGLM等。研究团队提供了基于VLLM和Tensorrt-LLM的混合精度推理,用户可一键部署模型。MixQ在多个测试中表现出色,端到端吞吐量比AWQ提升6倍,且与Bitsandbytes相比,MixQ 8比特kernel性能提升1.9倍,4比特kernel性能达724TFLOPs,是FP16的3.13倍。
MixQ的核心思想是基于离群点的局部性对混合精度计算图进行等价变换,从而避免离群点查找的额外开销。此外,通过图层融合和高效的数据结构降低访存开销,并使用CUTLASS生成高性能的混合精度算子,进一步提升系统性能。MixQ已在多个大模型中验证,准确率与Bitsandbytes一致,性能显著提升。项目地址: 1. https://github.com/Qcompiler/MixQ_Tensorrt_LLM 2. https://github.com/Qcompiler/MIXQ 3. https://github.com/Qcompiler/vllm-mixed-precision
原文链接
本文链接:https://kx.umi6.com/article/7609.html
转载请注明文章出处
相关推荐
换一换
Scaling Law终结,量化也不管用,AI大佬都在审视这篇论文
2024-11-13 16:46:53
大模型应用新战场:揭秘终端侧AI竞争关键|智在终端
2024-09-04 16:29:42
今日最热论文:Scaling Law终结,量化也不管用,AI大佬齐刷刷附议
2024-11-13 15:39:06
微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑,性能与同规模全精度开源模型相当
2025-04-21 12:38:13
量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了
2024-11-16 20:37:04
Claude翻车:Opus 4.1白天退化,Anthropic承认并回滚更新
2025-09-01 18:21:10
SU 哈佛亚马逊最新研究:量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了
2024-11-16 16:31:57
突破瓶颈!北航ETH等首次将扩散模型完全量化至1bit,28倍存储节省+52.7倍效率提升
2025-01-11 12:37:26
Meta 推出 Llama 3.2 1B / 3B 模型量化版:功耗更低、可适用更多轻量移动设备
2024-10-27 15:08:10
国星宇航与腾讯云签署“星算”计划战略合作协议,携手领航AI云服务新生态
2026-06-05 18:10:37
WPS笔记正式发布:AI贯穿记录、整理与复用全过程
2026-06-05 18:08:52
模型替换、数据倒卖、远控后门!国安部提醒“AI中转站”风险
2026-06-08 08:15:08
英博数科亮相CCIG 2026,首次公开EBFlex私有化算力管理平台
2026-06-04 16:10:54
758 文章
716808 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08