
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
手机运行大型模型的速度可以提升4-5倍!微软亚洲研究院发布了一项新技术,名为T-MAC,它允许在CPU上高效部署低比特大语言模型,且资源消耗量更少。
T-MAC通过基于查找表(LUT)的计算范式实现了这一目标,无需反量化过程,直接支持混合精度矩阵乘法。这不仅提高了推理性能,使模型部署更加统一和可扩展...
原文链接
微软亚洲研究院开源新技术T-MAC,该技术专为优化模型端侧部署而设计,主打性价比,能在CPU上高效部署低比特大语言模型,性能甚至超越NPU/GPU。T-MAC通过基于查找表(LUT)的计算范式,无需反量化操作,直接支持混合精度矩阵乘法,显著提高了推理性能,使模型更加统一和可扩展,尤其适合资源受限的端侧设备。在配备最新高通Snapdragon X Elite芯片组的Surface AI PC上,T-MAC实现了3B BitNet-b1.58模型每秒48个token的生成速率,2bit 7B llama模型每秒30个token,4bit 7B llama模型每秒20个token的生成速率,超越了NPU性能。T-MAC技术现已开源,提供代码和论文链接供进一步研究。
【发布日期】2024年8月
原文链接
加载更多

暂无内容