T-MAC - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

手机跑大模型提速4-5倍！微软亚研院开源新技术，有CPU就行

手机运行大型模型的速度可以提升4-5倍！微软亚洲研究院发布了一项新技术，名为T-MAC，它允许在CPU上高效部署低比特大语言模型，且资源消耗量更少。 T-MAC通过基于查找表（LUT）的计算范式实现了这一目标，无需反量化过程，直接支持混合精度矩阵乘法。这不仅提高了推理性能，使模型部署更加统一和可扩展...

原文链接

未来笔触

08-09 14:49:11

T-MAC

低比特大语言模型

微软亚洲研究院

分享至

打开微信扫一扫

内容投诉

生成图片

手机跑大模型提速 4-5 倍：微软亚研院开源新技术 T-MAC，有 CPU 就行

微软亚洲研究院开源新技术T-MAC，该技术专为优化模型端侧部署而设计，主打性价比，能在CPU上高效部署低比特大语言模型，性能甚至超越NPU/GPU。T-MAC通过基于查找表（LUT）的计算范式，无需反量化操作，直接支持混合精度矩阵乘法，显著提高了推理性能，使模型更加统一和可扩展，尤其适合资源受限的端侧设备。在配备最新高通Snapdragon X Elite芯片组的Surface AI PC上，T-MAC实现了3B BitNet-b1.58模型每秒48个token的生成速率，2bit 7B llama模型每秒30个token，4bit 7B llama模型每秒20个token的生成速率，超越了NPU性能。T-MAC技术现已开源，提供代码和论文链接供进一步研究。【发布日期】2024年8月

原文链接