大模型开始打王者荣耀了
腾讯近日提出了一种名为 Think-In-Games (TiG) 的框架,让大语言模型直接进入《王者荣耀》进行训练。这一框架不仅能实时分析游戏中的盘面信息(如英雄状态、兵线、防御塔等),还能模仿人类玩家的操作,甚至以仅 14B 参数的 Qwen-3-14B 模型,击败了参数量高达 671B 的 Deepseek-R1,动作精准度达到 90.91%。
TiG 的核心:边玩边学
TiG 将强化学习的决策过程重新定义为语言建模任务。大语言模型通过生成语言指导策略,并根据环境反馈进行在线强化学习优化。这种方法弥补了传统大语言模型“知其然不知其所以然”与强化学习“行动但无解释”的缺陷。
在《王者荣耀》中,TiG 主要学习人类玩家的 宏观推理能力,例如团队协作、目标控制和地图施压,而非微观操作(如技能释放)。它更像是一个金牌教练,能够精准判断局势并制定策略。例如,在一场对局中,模型会分析当前状态(如防御塔血量低、保护机制失效),建议“联合队友推掉敌方中路一塔”,并提醒风险和操作细节。
为了实现这一效果,研究团队从真实对局中采样构建数据集,并通过“重新标注算法”为每帧游戏状态标注关键宏观动作。此外,他们采用 Group Relative Policy Optimization (GRPO) 算法,结合基于规则的奖励机制(匹配人类操作得1分,否则0分)来优化模型。
训练与实验结果
TiG 的训练分为两个阶段:
1. 监督微调(SFT):从 Deepseek-R1 提取数据,提升模型推理能力。
2. 在线强化学习(RL):使用 GRPO 算法进一步优化模型表现。
实验表明,SFT 和 GRPO 的结合显著提升了模型性能。例如,Qwen-2.5-32B 在应用 GRPO 后,准确率从 66.67% 提升至 86.84%;而 Qwen-3-14B 经过 2000 步训练后,准确率达到 90.91%,超越了更大规模的 Deepseek-R1(86.67%)。
总之,TiG 框架不仅弥合了“知”与“行”的鸿沟,还在减少数据和计算需求的情况下,达到了媲美传统强化学习方法的效果。
参考链接:
[1] https://arxiv.org/abs/2508.21365
[2] https://x.com/rohanpaul_ai/status/1962499431137493195
.png)

-
2025-09-03 23:55:07
-
2025-09-03 23:54:10
-
2025-09-03 23:52:59