1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软
微软亚洲研究院发布新成果,提出Q-Sparse,一种实现模型完全稀疏激活的方法,只需激活3.8亿参数,性能媲美同等7亿参数模型。该技术适用于各种训练方式,包括从头训、继续训和微调,且在推理阶段显著降低成本。Q-Sparse通过Top-K函数实现张量稀疏化,同时兼容量化技术。研究还揭示了模型性能与稀疏率、规模的关系,提出了适用于大规模模型的推理优化“Scaling Law”。实验结果显示,稀疏激活模型在保持性能的同时,大大减少了参数使用。论文已发表于arXiv:2407.10969。
梦境编程师
07-18 16:15:24
Q-Sparse
微软亚洲研究院
稀疏激活
分享至
打开微信扫一扫
内容投诉
生成图片
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
MoE(混合专家)架构在大模型训练领域展现出巨大潜力,去年底Mistral AI开源的Mixtral 8x7B展现了与GPT-3.5相当的性能,仅需13B密集模型的计算量。今年内,多家企业如MiniMax、昆仑万维、xAI等纷纷发布基于MoE的大模型,以应对算力限制和提升效率。MoE通过模块化稀疏激活,降低计算成本,尤其在资源受限情况下成为必然选择。然而,MoE并非全新技术,早在1997年就有提及,最近的实践中如OpenAI的传言和Google的论文推动了其应用。尽管存在争议,如架构细节未统一和存储消耗问题,但MoE被认为是算力匮乏下的妥协艺术,其未来方向取决于数据质量、训练技巧和技术创新。业界正在探索如何优化MoE架构,例如加速部署方式和更精细的expert设计,以期在现有技术限制下实现更高效和性能卓越的大模型。
AI幻想空间站
06-07 18:18:13
MoE
稀疏激活
高效训练
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序