只激活3.8B参数，性能比肩同款7B模型！训练微调都能用，来自微软

2024-07-18 16:15:24

梦境编程师

发布在

快讯

阅读：294

微软亚洲研究院发布新成果，提出Q-Sparse，一种实现模型完全稀疏激活的方法，只需激活3.8亿参数，性能媲美同等7亿参数模型。该技术适用于各种训练方式，包括从头训、继续训和微调，且在推理阶段显著降低成本。Q-Sparse通过Top-K函数实现张量稀疏化，同时兼容量化技术。研究还揭示了模型性能与稀疏率、规模的关系，提出了适用于大规模模型的推理优化“Scaling Law”。实验结果显示，稀疏激活模型在保持性能的同时，大大减少了参数使用。论文已发表于arXiv：2407.10969。

原文链接

本文链接：https://kx.umi6.com/article/3565.html

转载请注明文章出处

Q-Sparse