1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

微软亚洲研究院发布新成果,提出Q-Sparse,一种实现模型完全稀疏激活的方法,只需激活3.8亿参数,性能媲美同等7亿参数模型。该技术适用于各种训练方式,包括从头训、继续训和微调,且在推理阶段显著降低成本。Q-Sparse通过Top-K函数实现张量稀疏化,同时兼容量化技术。研究还揭示了模型性能与稀疏率、规模的关系,提出了适用于大规模模型的推理优化“Scaling Law”。实验结果显示,稀疏激活模型在保持性能的同时,大大减少了参数使用。论文已发表于arXiv:2407.10969。

原文链接
本文链接:https://kx.umi6.com/article/3565.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
2024-06-07 18:18:13
只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软
2024-07-18 16:15:24
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
2024-08-09 14:49:11
1927亿美元!风投史上首次:AI领域年内“吸金”占比过半
2025-10-03 17:43:38
机器人化身景区“引流利器”!无锡解锁全国首家具身智能体验中心
2025-10-01 18:49:45
和两位CEO 聊Sora: 应用层爆发的里程碑事件,创业者的机会来了
2025-10-04 13:02:06
美国将加速运用 AI 推动儿童癌症研究,助力诊断、治疗、预防工作
2025-10-02 12:11:57
苹果否认与OpenAI的合作损害马斯克旗下的xAI 称垄断指控系层层臆测
2025-10-01 14:46:15
阿里巴巴助推亚洲可转换债券9月飙升创纪录
2025-10-02 18:20:05
亚马逊贝索斯:AI 虽有泡沫但也提供实际价值,太空数据中心有望成为现实
2025-10-04 09:56:37
Meta内部混乱持续:FAIR自由不再,LeCun考虑辞职
2025-10-03 13:40:34
AI产业链增量利好叠加催化 港股芯片股行情再度“沸腾”
2025-10-02 15:15:53
减少对英伟达、AMD 依赖,微软未来 AI 数据中心计划主要使用自研芯片
2025-10-02 12:12:41
24小时热文
更多
扫一扫体验小程序