ModelScope魔搭社区推出GRPO训练全链路解决方案,支持多模态训练、训练加速和评测。GRPO是PPO算法的一种改进,旨在简化价值模型,提高训练稳定性和可维护性。然而,现有方案面临训练速度低、集群配置复杂等问题。
魔搭社区的SWIFT框架优化了采样效率,通过多实例数据并行采样和异步采样技术,提高了训练速度。例如,配置4张卡负责模型训练,4张卡负责采样,或6张卡负责训练,2张卡负责采样,均可显著缩短训练时间。此外,LMDeploy推理框架支持纯文本和多模态模型的加速,相比vLLM,训练速度提升约16%。
SWIFT框架还支持多轮更新,通过重复使用采样数据,进一步优化资源分配,提高训练速度。在八卡环境中,SWIFT框架的训练耗时约为120秒/步,比veRL和trl框架快得多。
SWIFT框架支持多模态模型的GRPO训练,包括图文、视频和音频。实验结果显示,经过500个epoch训练,准确性奖励和格式奖励显著增加,模型成功完成任务。
EvalScope框架提供全面的大模型评测,包括推理性能和思考效率的评估。该框架还探索了模型的思考效率问题,为开发者提供新的技术选型。
原文链接
本文链接:https://kx.umi6.com/article/15100.html
转载请注明文章出处
相关推荐
换一换
智源发布“百模”评测结果:文生视频模型画质进一步提升 但普遍存在大幅度动作变形等问题
2024-12-19 17:06:20
实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!
2025-04-17 16:41:08
DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路
2025-03-09 13:40:19
用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能
2025-11-14 16:03:30
周鸿祎:只有通过多智能体协作 才能让人工智能真正落地
2026-03-07 21:02:28
AI出错为何不用承担责任!最高法厘清法律责任边界
2026-03-09 18:02:29
黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队
2026-03-06 23:41:48
上海人工智能实验室推出DeepLink多元算力混合推理加速方案
2026-03-09 15:53:40
OpenClaw最强外挂出现:小龙虾抓不到数据有救了!
2026-03-08 18:27:06
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器
2026-03-07 13:31:18
超算互联网:OpenClaw正式打通飞书、企业微信
2026-03-09 14:48:46
全民疯抢!60岁大爷大妈也开始养龙虾了 官方:极易引发网络攻击、信息泄露
2026-03-08 11:58:45
20岁大学生花10天VibeCoding一个开源项目,获盛大3000万投资
2026-03-08 16:13:04
648 文章
442994 浏览
24小时热文
更多
-
2026-03-10 13:19:24 -
2026-03-10 13:18:55 -
2026-03-10 12:13:43