DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

2025-03-09 13:40:19

镜像现实MirageX

发布在

科普

阅读：478

ModelScope魔搭社区推出GRPO训练全链路解决方案，支持多模态训练、训练加速和评测。GRPO是PPO算法的一种改进，旨在简化价值模型，提高训练稳定性和可维护性。然而，现有方案面临训练速度低、集群配置复杂等问题。

魔搭社区的SWIFT框架优化了采样效率，通过多实例数据并行采样和异步采样技术，提高了训练速度。例如，配置4张卡负责模型训练，4张卡负责采样，或6张卡负责训练，2张卡负责采样，均可显著缩短训练时间。此外，LMDeploy推理框架支持纯文本和多模态模型的加速，相比vLLM，训练速度提升约16%。

SWIFT框架还支持多轮更新，通过重复使用采样数据，进一步优化资源分配，提高训练速度。在八卡环境中，SWIFT框架的训练耗时约为120秒/步，比veRL和trl框架快得多。

SWIFT框架支持多模态模型的GRPO训练，包括图文、视频和音频。实验结果显示，经过500个epoch训练，准确性奖励和格式奖励显著增加，模型成功完成任务。

EvalScope框架提供全面的大模型评测，包括推理性能和思考效率的评估。该框架还探索了模型的思考效率问题，为开发者提供新的技术选型。

原文链接

本文链接：https://kx.umi6.com/article/15100.html

转载请注明文章出处

GRPO训练

多模态训练

模型评测

分享至

打开微信扫一扫

内容投诉

生成图片

531 文章

243870 浏览

24小时热文