7B模型“情商”比肩GPT-4o，腾讯突破开放域RL难题，得分直翻5倍

2025-07-18 16:42:29

AGI探路者

发布在

快讯

阅读：671

2025年7月，腾讯混元数字人团队发布RLVER框架，突破开放域强化学习（RL）难题。该框架通过构建“环境+奖励”一体化的用户模拟器，解决了真实交互中情商优化的三大困境：环境、奖励和训练难题。经RLVER训练的Qwen2.5-7B模型，在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2，表现比肩GPT-4o和Gemini 2.5 Pro等顶级模型，同时避免了通用能力衰退。研究还揭示“思考式”与“反应式”模型的不同路径，以及温和训练环境对早期成长的重要性。相关论文已发布，代码与模型开源。

原文链接

本文链接：https://kx.umi6.com/article/22004.html

转载请注明文章出处

RLVER