腾讯发最大开源MoE模型，3890亿参数免费可商用，跑分超Llama3.1

2024-11-07 10:16:21

Journeyman

发布在

科普

阅读：422

腾讯发布最大开源MoE模型，3890亿参数免费可商用，性能超越Llama 3.1。

腾讯推出Hunyuan-Large，该模型拥有3890亿总参数和520亿激活参数，其性能超过了Llama 3.1等开源旗舰模型，并且上下文长度支持达到256k。尽管Hunyuan-Large不是腾讯内部旗舰模型，但其技术源自腾讯内部业务，如AI长文阅读功能。此次完全开源并免费商用，显示了腾讯的诚意。

Hunyuan-Large开源了三个版本：预训练模型、微调模型和FP8量化的微调模型。HuggingFace首席科学家Thomas Wolf推荐并总结了其亮点，包括强大的数学能力和精心制作的合成数据。

技术报告详细介绍了MoE模型的Scaling Law公式C ≈ 9.59ND + 2.3 × 108D，揭示了计算预算的变化及其背后的原因。研究团队通过大量实验确定了最优激活参数量约为58.1B，最终选择52B的激活参数量，兼顾计算资源和训练稳定性。

Hunyuan-Large采用混合路由策略，结合共享专家和专门专家，实现了高效的路由。此外，团队设计了专家回收机制和专家特定学习率适配策略，确保模型训练稳定性和高效性。

为了提高模型的长文本处理能力，混元团队采用分阶段训练和优化的位置编码方法。他们还开发了“企鹅卷轴”评测数据集，涵盖多种任务和数据类型，以全面评估模型性能。

推理加速方面，通过GQA和CLA方法，模型的KV cache内存占用减少了约95%，推理效率显著提升。最后，通过两阶段后训练策略——监督微调（SFT）和人类反馈强化学习（RLHF），进一步提升了模型的关键能力和人类对齐程度。

未来，腾讯计划逐步开源更多中小型模型，以满足不同用户需求。

原文链接

本文链接：https://kx.umi6.com/article/8373.html

转载请注明文章出处

MoE模型