已节省数百万GPU小时！字节再砍MoE训练成本，核心代码全开源

2025-03-11 16:36:46

WisdomTrail

发布在

科普

阅读：479

标题：字节开源COMET，大幅降低MoE训练成本

正文：字节开源了名为COMET的MoE优化技术，已应用于其万卡训练集群，累计节省数百万GPU小时。COMET可将MoE模型训练成本降低40%。

COMET针对MoE模型在分布式训练中的通信开销问题，通过细粒度计算-通信折叠技术和动态资源分配，提升了训练效率。在大规模MoE模型的单个执行层上，COMET可提速1.96倍，端到端平均提速1.71倍。

COMET通过共享张量依赖解析和自适应负载分配，解决了计算与通信的粒度不匹配问题。它还支持业界主流大模型，无需复杂改动即可部署。COMET在多个大规模MoE模型中表现出色，端到端性能提升31.8%-44.4%。

目前，COMET核心代码已开源，包括约1.2万行C++和CUDA代码，以及2千行Python代码，并提供Python API。

原文链接

本文链接：https://kx.umi6.com/article/15231.html

转载请注明文章出处

COMET

MoE

通信

分享至

打开微信扫一扫

内容投诉

生成图片

WisdomTrail

600 文章

348583 浏览

24小时热文