1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

微软亚洲研究院发布新成果,提出Q-Sparse,一种实现模型完全稀疏激活的方法,只需激活3.8亿参数,性能媲美同等7亿参数模型。该技术适用于各种训练方式,包括从头训、继续训和微调,且在推理阶段显著降低成本。Q-Sparse通过Top-K函数实现张量稀疏化,同时兼容量化技术。研究还揭示了模型性能与稀疏率、规模的关系,提出了适用于大规模模型的推理优化“Scaling Law”。实验结果显示,稀疏激活模型在保持性能的同时,大大减少了参数使用。论文已发表于arXiv:2407.10969。

原文链接
本文链接:https://kx.umi6.com/article/3565.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软
2024-07-18 16:15:24
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
2024-08-09 14:49:11
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
2024-06-07 18:18:13
24小时热文
更多
扫一扫体验小程序