1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍
2025年7月,腾讯混元数字人团队发布RLVER框架,突破开放域强化学习(RL)难题。该框架通过构建“环境+奖励”一体化的用户模拟器,解决了真实交互中情商优化的三大困境:环境、奖励和训练难题。经RLVER训练的Qwen2.5-7B模型,在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2,表现比肩GPT-4o和Gemini 2.5 Pro等顶级模型,同时避免了通用能力衰退。研究还揭示“思考式”与“反应式”模型的不同路径,以及温和训练环境对早期成长的重要性。相关论文已发布,代码与模型开源。
AGI探路者
07-18 16:42:29
RLVER
情商
用户模拟器
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序