昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

2024-09-15 10:27:04

AI创意引擎

发布在

快讯

阅读：1123

【昆仑万维发布奖励模型Skywork-Reward】9月13日，昆仑万维推出了两款全新奖励模型——Skywork-Reward-Gemma-2-27B与Skywork-Reward-Llama-3.1-8B，这两款模型在奖励模型评估基准RewardBench上分别位居榜首与第三。奖励模型在强化学习中扮演核心角色，用于评估智能体行为并指导其学习过程，使智能体能在特定环境中做出最佳决策。在大语言模型训练中，奖励模型尤为关键，有助于模型生成更合乎人类偏好的内容。与现有模型不同，Skywork-Reward的偏序数据源自网络公开资源，通过特定筛选策略构建高质量偏好数据集。该模型偏序训练数据集包含约8万个样本，通过微调基座模型获得最终奖励模型。欲了解更多详情，请访问相关链接。【重要信息】此发布标志着昆仑万维在奖励模型领域的最新进展，为大语言模型训练提供了新的优化方向，值得关注。

原文链接

本文链接：https://kx.umi6.com/article/6289.html

转载请注明文章出处

RewardBench排行榜