综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
【昆仑万维发布奖励模型Skywork-Reward】9月13日,昆仑万维推出了两款全新奖励模型——Skywork-Reward-Gemma-2-27B与Skywork-Reward-Llama-3.1-8B,这两款模型在奖励模型评估基准RewardBench上分别位居榜首与第三。奖励模型在强化学习中扮演核心角色,用于评估智能体行为并指导其学习过程,使智能体能在特定环境中做出最佳决策。在大语言模型训练中,奖励模型尤为关键,有助于模型生成更合乎人类偏好的内容。与现有模型不同,Skywork-Reward的偏序数据源自网络公开资源,通过特定筛选策略构建高质量偏好数据集。该模型偏序训练数据集包含约8万个样本,通过微调基座模型获得最终奖励模型。欲了解更多详情,请访问相关链接。
【重要信息】此发布标志着昆仑万维在奖励模型领域的最新进展,为大语言模型训练提供了新的优化方向,值得关注。
原文链接
加载更多
暂无内容