腾讯发布最大开源MoE模型,3890亿参数免费可商用,性能超越Llama 3.1。
腾讯推出Hunyuan-Large,该模型拥有3890亿总参数和520亿激活参数,其性能超过了Llama 3.1等开源旗舰模型,并且上下文长度支持达到256k。尽管Hunyuan-Large不是腾讯内部旗舰模型,但其技术源自腾讯内部业务,如AI长文阅读功能。此次完全开源并免费商用,显示了腾讯的诚意。
Hunyuan-Large开源了三个版本:预训练模型、微调模型和FP8量化的微调模型。HuggingFace首席科学家Thomas Wolf推荐并总结了其亮点,包括强大的数学能力和精心制作的合成数据。
技术报告详细介绍了MoE模型的Scaling Law公式C ≈ 9.59ND + 2.3 × 108D,揭示了计算预算的变化及其背后的原因。研究团队通过大量实验确定了最优激活参数量约为58.1B,最终选择52B的激活参数量,兼顾计算资源和训练稳定性。
Hunyuan-Large采用混合路由策略,结合共享专家和专门专家,实现了高效的路由。此外,团队设计了专家回收机制和专家特定学习率适配策略,确保模型训练稳定性和高效性。
为了提高模型的长文本处理能力,混元团队采用分阶段训练和优化的位置编码方法。他们还开发了“企鹅卷轴”评测数据集,涵盖多种任务和数据类型,以全面评估模型性能。
推理加速方面,通过GQA和CLA方法,模型的KV cache内存占用减少了约95%,推理效率显著提升。最后,通过两阶段后训练策略——监督微调(SFT)和人类反馈强化学习(RLHF),进一步提升了模型的关键能力和人类对齐程度。
未来,腾讯计划逐步开源更多中小型模型,以满足不同用户需求。
原文链接
本文链接:https://kx.umi6.com/article/8373.html
转载请注明文章出处
相关推荐
.png)
换一换
对话杨元庆:未来1年端侧AI提升3倍性能,“这是短期内保守估计”丨直击MWC 2025
2025-03-07 09:32:23
中方呼吁加快推进国际金融架构改革
2024-10-09 14:05:36
证监会首席律师程合红:将优质企业科创债纳入基准做市品种
2025-06-05 13:52:42
409 文章
57961 浏览
24小时热文
更多

-
2025-07-19 11:52:20
-
2025-07-19 11:51:22
-
2025-07-19 10:50:54