1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

ModelScope魔搭社区推出GRPO训练全链路解决方案,支持多模态训练、训练加速和评测。GRPO是PPO算法的一种改进,旨在简化价值模型,提高训练稳定性和可维护性。然而,现有方案面临训练速度低、集群配置复杂等问题。

魔搭社区的SWIFT框架优化了采样效率,通过多实例数据并行采样和异步采样技术,提高了训练速度。例如,配置4张卡负责模型训练,4张卡负责采样,或6张卡负责训练,2张卡负责采样,均可显著缩短训练时间。此外,LMDeploy推理框架支持纯文本和多模态模型的加速,相比vLLM,训练速度提升约16%。

SWIFT框架还支持多轮更新,通过重复使用采样数据,进一步优化资源分配,提高训练速度。在八卡环境中,SWIFT框架的训练耗时约为120秒/步,比veRL和trl框架快得多。

SWIFT框架支持多模态模型的GRPO训练,包括图文、视频和音频。实验结果显示,经过500个epoch训练,准确性奖励和格式奖励显著增加,模型成功完成任务。

EvalScope框架提供全面的大模型评测,包括推理性能和思考效率的评估。该框架还探索了模型的思考效率问题,为开发者提供新的技术选型。

原文链接
本文链接:https://kx.umi6.com/article/15100.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智源发布“百模”评测结果:文生视频模型画质进一步提升 但普遍存在大幅度动作变形等问题
2024-12-19 17:06:20
用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能
2025-11-14 16:03:30
实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!
2025-04-17 16:41:08
让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力
2026-06-08 11:27:33
OpenAI芯片核心叛逃Anthropic!就在量产前夜
2026-06-07 20:48:02
NVIDIA发布Cosmos 3:全球首个全开源物理AI全能模型面世
2026-06-05 00:32:58
从看懂世界到做对动作,卧安机器人OneModel 1.7用一条「隐式通路」打通了具身智能的关键断层
2026-06-03 20:34:55
阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一
2026-06-05 14:59:31
CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS-SR让视频超分不用在速度与质量间为难
2026-06-08 11:24:08
ARM CEO:美对华禁运AI CPU几乎不可能!比禁GPU难多了
2026-06-03 16:29:54
CVPR 开幕式:全场泪目缅怀孙剑,广工本科生靠「古董显卡」逆袭 | CVPR 2026
2026-06-08 11:22:26
亚洲首富只当了三天 孙正义是时代弄潮儿还是追泡沫的人?
2026-06-04 17:16:03
刚刚,Anthropic提交了招股书!
2026-06-03 12:19:08
24小时热文
更多
扫一扫体验小程序