
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
微软亚洲研究院发布新成果,提出Q-Sparse,一种实现模型完全稀疏激活的方法,只需激活3.8亿参数,性能媲美同等7亿参数模型。该技术适用于各种训练方式,包括从头训、继续训和微调,且在推理阶段显著降低成本。Q-Sparse通过Top-K函数实现张量稀疏化,同时兼容量化技术。研究还揭示了模型性能与稀疏率、规模的关系,提出了适用于大规模模型的推理优化“Scaling Law”。实验结果显示,稀疏激活模型在保持性能的同时,大大减少了参数使用。论文已发表于arXiv:2407.10969。
原文链接
MoE(混合专家)架构在大模型训练领域展现出巨大潜力,去年底Mistral AI开源的Mixtral 8x7B展现了与GPT-3.5相当的性能,仅需13B密集模型的计算量。今年内,多家企业如MiniMax、昆仑万维、xAI等纷纷发布基于MoE的大模型,以应对算力限制和提升效率。MoE通过模块化稀疏激活,降低计算成本,尤其在资源受限情况下成为必然选择。然而,MoE并非全新技术,早在1997年就有提及,最近的实践中如OpenAI的传言和Google的论文推动了其应用。尽管存在争议,如架构细节未统一和存储消耗问题,但MoE被认为是算力匮乏下的妥协艺术,其未来方向取决于数据质量、训练技巧和技术创新。业界正在探索如何优化MoE架构,例如加速部署方式和更精细的expert设计,以期在现有技术限制下实现更高效和性能卓越的大模型。
原文链接
加载更多

暂无内容