RLVER - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

7B模型“情商”比肩GPT-4o，腾讯突破开放域RL难题，得分直翻5倍

2025年7月，腾讯混元数字人团队发布RLVER框架，突破开放域强化学习（RL）难题。该框架通过构建“环境+奖励”一体化的用户模拟器，解决了真实交互中情商优化的三大困境：环境、奖励和训练难题。经RLVER训练的Qwen2.5-7B模型，在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2，表现比肩GPT-4o和Gemini 2.5 Pro等顶级模型，同时避免了通用能力衰退。研究还揭示“思考式”与“反应式”模型的不同路径，以及温和训练环境对早期成长的重要性。相关论文已发布，代码与模型开源。

原文链接