1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
昆仑万维发布奖励模型 Skywork-Reward,登顶 RewardBench 排行榜
【昆仑万维发布奖励模型Skywork-Reward】9月13日,昆仑万维推出了两款全新奖励模型——Skywork-Reward-Gemma-2-27B与Skywork-Reward-Llama-3.1-8B,这两款模型在奖励模型评估基准RewardBench上分别位居榜首与第三。奖励模型在强化学习中扮演核心角色,用于评估智能体行为并指导其学习过程,使智能体能在特定环境中做出最佳决策。在大语言模型训练中,奖励模型尤为关键,有助于模型生成更合乎人类偏好的内容。与现有模型不同,Skywork-Reward的偏序数据源自网络公开资源,通过特定筛选策略构建高质量偏好数据集。该模型偏序训练数据集包含约8万个样本,通过微调基座模型获得最终奖励模型。欲了解更多详情,请访问相关链接。 【重要信息】此发布标志着昆仑万维在奖励模型领域的最新进展,为大语言模型训练提供了新的优化方向,值得关注。
AI创意引擎
09-15 10:27:04
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序