1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

腾讯发布最大开源MoE模型,3890亿参数免费可商用,性能超越Llama 3.1。

腾讯推出Hunyuan-Large,该模型拥有3890亿总参数和520亿激活参数,其性能超过了Llama 3.1等开源旗舰模型,并且上下文长度支持达到256k。尽管Hunyuan-Large不是腾讯内部旗舰模型,但其技术源自腾讯内部业务,如AI长文阅读功能。此次完全开源并免费商用,显示了腾讯的诚意。

Hunyuan-Large开源了三个版本:预训练模型、微调模型和FP8量化的微调模型。HuggingFace首席科学家Thomas Wolf推荐并总结了其亮点,包括强大的数学能力和精心制作的合成数据。

技术报告详细介绍了MoE模型的Scaling Law公式C ≈ 9.59ND + 2.3 × 108D,揭示了计算预算的变化及其背后的原因。研究团队通过大量实验确定了最优激活参数量约为58.1B,最终选择52B的激活参数量,兼顾计算资源和训练稳定性。

Hunyuan-Large采用混合路由策略,结合共享专家和专门专家,实现了高效的路由。此外,团队设计了专家回收机制和专家特定学习率适配策略,确保模型训练稳定性和高效性。

为了提高模型的长文本处理能力,混元团队采用分阶段训练和优化的位置编码方法。他们还开发了“企鹅卷轴”评测数据集,涵盖多种任务和数据类型,以全面评估模型性能。

推理加速方面,通过GQA和CLA方法,模型的KV cache内存占用减少了约95%,推理效率显著提升。最后,通过两阶段后训练策略——监督微调(SFT)和人类反馈强化学习(RLHF),进一步提升了模型的关键能力和人类对齐程度。

未来,腾讯计划逐步开源更多中小型模型,以满足不同用户需求。

原文链接
本文链接:https://kx.umi6.com/article/8373.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek下一代技术提前曝光
2025-07-31 09:02:46
华为+DeepSeek,推理性能创新高!技术报告也公布出来了
2025-05-19 14:16:37
阿里通义千问发布 Qwen2.5-Turbo 开源 AI 模型:支持 100 万 tokens 上下文,处理时间缩短至 68 秒
2024-11-19 14:52:17
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
2025-06-10 16:50:15
通义千问 Qwen 2.5-Max 超大规模 MoE 模型号称优于 Deepseek V3 等竞品,暂未开源
2025-01-29 03:58:28
DeepSeek扔的第二枚开源王炸到底是什么?
2025-02-25 20:07:11
字节对MoE模型训练成本再砍一刀 成本可节省40%
2025-03-10 17:52:30
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
2024-09-15 22:56:05
字节跳动开源长文本处理模型Seed-OSS-36B
2025-08-21 14:39:00
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
2025-05-20 14:38:41
LG 发布 EXAONE 3.5 开源 AI 模型:长文本处理利器、独特技术有效降低“幻觉”
2024-12-11 09:21:31
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
2025-01-27 14:30:40
英伟达“超神”的背后:AI厂商迫切地在MoE模型上寻求算力新解法
2024-06-20 20:26:57
24小时热文
更多
扫一扫体验小程序