豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

2024-11-05 14:42:28

智慧棱镜

发布在

科普

阅读：517

标题：豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

近日，字节跳动豆包大模型团队与香港大学合作，提出了HybridFlow框架，该框架能显著提升强化学习（RL）和基于人类反馈的强化学习（RLHF）的训练吞吐量，并降低开发和维护复杂度。实验显示，HybridFlow在不同模型规模和算法下的训练吞吐量比其他框架提高了1.5到20倍。

随着大模型的发展，后训练阶段引入RL方法成为提升模型质量和与人类偏好对齐的重要手段。然而，大规模模型的RL算法面临灵活性和性能的双重挑战。传统系统在这方面存在不足，无法充分释放大模型的潜力。

HybridFlow采用混合编程模型，结合单控制器的灵活性和多控制器的高效性，解耦了控制流和计算流。它利用Ray的分布式编程、动态计算图和异构调度能力，通过封装单模型的分布式计算、统一数据切分以及支持异步RL控制流，实现了高效执行各种RL算法，增强了系统的灵活性和开发效率。

实验结果显示，无论使用PPO、ReMax还是Safe-RLHF算法，HybridFlow在各种模型规模下都表现出色，平均训练吞吐量大幅领先于其他框架。随着GPU集群规模扩大，HybridFlow的吞吐量也能良好扩展。这是因为其灵活的模型部署能够充分利用硬件资源，实现高效并行计算。此外，HybridFlow还支持多种分布式并行框架（如Megatron-LM、FSDP、vLLM），满足不同模型规模的计算需求。

随着大模型推理能力和RL技术的不断发展，豆包大模型团队将持续探索和实验。目前，HybridFlow的研究论文已被学术顶会EuroSys 2025接受，并且代码已经对外开源。

HybridFlow开源链接：https://github.com/volcengine/veRL

原文链接

本文链接：https://kx.umi6.com/article/8256.html

转载请注明文章出处

HybridFlow