微软亚洲研究院

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

手机跑大模型提速4-5倍！微软亚研院开源新技术，有CPU就行

手机运行大型模型的速度可以提升4-5倍！微软亚洲研究院发布了一项新技术，名为T-MAC，它允许在CPU上高效部署低比特大语言模型，且资源消耗量更少。 T-MAC通过基于查找表（LUT）的计算范式实现了这一目标，无需反量化过程，直接支持混合精度矩阵乘法。这不仅提高了推理性能，使模型部署更加统一和可扩展...

原文链接

未来笔触

08-09 14:49:11

T-MAC

低比特大语言模型

微软亚洲研究院

分享至

打开微信扫一扫

内容投诉

生成图片

只激活3.8B参数，性能比肩同款7B模型！训练微调都能用，来自微软

微软亚洲研究院发布新成果，提出Q-Sparse，一种实现模型完全稀疏激活的方法，只需激活3.8亿参数，性能媲美同等7亿参数模型。该技术适用于各种训练方式，包括从头训、继续训和微调，且在推理阶段显著降低成本。Q-Sparse通过Top-K函数实现张量稀疏化，同时兼容量化技术。研究还揭示了模型性能与稀疏率、规模的关系，提出了适用于大规模模型的推理优化“Scaling Law”。实验结果显示，稀疏激活模型在保持性能的同时，大大减少了参数使用。论文已发表于arXiv：2407.10969。

原文链接