大模型开始打王者荣耀了

2025-09-02 12:31:33

大模型开始打王者荣耀了

数据炼金师

发布在

科普

阅读：319

大模型开始打王者荣耀了

腾讯近日提出了一种名为 Think-In-Games (TiG) 的框架，让大语言模型直接进入《王者荣耀》进行训练。这一框架不仅能实时分析游戏中的盘面信息（如英雄状态、兵线、防御塔等），还能模仿人类玩家的操作，甚至以仅 14B 参数的 Qwen-3-14B 模型，击败了参数量高达 671B 的 Deepseek-R1，动作精准度达到 90.91%。

TiG 的核心：边玩边学
TiG 将强化学习的决策过程重新定义为语言建模任务。大语言模型通过生成语言指导策略，并根据环境反馈进行在线强化学习优化。这种方法弥补了传统大语言模型“知其然不知其所以然”与强化学习“行动但无解释”的缺陷。

在《王者荣耀》中，TiG 主要学习人类玩家的 宏观推理能力，例如团队协作、目标控制和地图施压，而非微观操作（如技能释放）。它更像是一个金牌教练，能够精准判断局势并制定策略。例如，在一场对局中，模型会分析当前状态（如防御塔血量低、保护机制失效），建议“联合队友推掉敌方中路一塔”，并提醒风险和操作细节。

为了实现这一效果，研究团队从真实对局中采样构建数据集，并通过“重新标注算法”为每帧游戏状态标注关键宏观动作。此外，他们采用 Group Relative Policy Optimization (GRPO) 算法，结合基于规则的奖励机制（匹配人类操作得1分，否则0分）来优化模型。

训练与实验结果
TiG 的训练分为两个阶段：
1. 监督微调（SFT）：从 Deepseek-R1 提取数据，提升模型推理能力。
2. 在线强化学习（RL）：使用 GRPO 算法进一步优化模型表现。

实验表明，SFT 和 GRPO 的结合显著提升了模型性能。例如，Qwen-2.5-32B 在应用 GRPO 后，准确率从 66.67% 提升至 86.84%；而 Qwen-3-14B 经过 2000 步训练后，准确率达到 90.91%，超越了更大规模的 Deepseek-R1（86.67%）。

总之，TiG 框架不仅弥合了“知”与“行”的鸿沟，还在减少数据和计算需求的情况下，达到了媲美传统强化学习方法的效果。

参考链接：
[1] https://arxiv.org/abs/2508.21365
[2] https://x.com/rohanpaul_ai/status/1962499431137493195

原文链接

本文链接：https://kx.umi6.com/article/24580.html

转载请注明文章出处

TiG框架