1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型开始打王者荣耀了

腾讯近日提出了一种名为 Think-In-Games (TiG) 的框架,让大语言模型直接进入《王者荣耀》进行训练。这一框架不仅能实时分析游戏中的盘面信息(如英雄状态、兵线、防御塔等),还能模仿人类玩家的操作,甚至以仅 14B 参数的 Qwen-3-14B 模型,击败了参数量高达 671B 的 Deepseek-R1,动作精准度达到 90.91%

TiG 的核心:边玩边学
TiG 将强化学习的决策过程重新定义为语言建模任务。大语言模型通过生成语言指导策略,并根据环境反馈进行在线强化学习优化。这种方法弥补了传统大语言模型“知其然不知其所以然”与强化学习“行动但无解释”的缺陷。

在《王者荣耀》中,TiG 主要学习人类玩家的 宏观推理能力,例如团队协作、目标控制和地图施压,而非微观操作(如技能释放)。它更像是一个金牌教练,能够精准判断局势并制定策略。例如,在一场对局中,模型会分析当前状态(如防御塔血量低、保护机制失效),建议“联合队友推掉敌方中路一塔”,并提醒风险和操作细节。

为了实现这一效果,研究团队从真实对局中采样构建数据集,并通过“重新标注算法”为每帧游戏状态标注关键宏观动作。此外,他们采用 Group Relative Policy Optimization (GRPO) 算法,结合基于规则的奖励机制(匹配人类操作得1分,否则0分)来优化模型。

训练与实验结果
TiG 的训练分为两个阶段:
1. 监督微调(SFT):从 Deepseek-R1 提取数据,提升模型推理能力。
2. 在线强化学习(RL):使用 GRPO 算法进一步优化模型表现。

实验表明,SFT 和 GRPO 的结合显著提升了模型性能。例如,Qwen-2.5-32B 在应用 GRPO 后,准确率从 66.67% 提升至 86.84%;而 Qwen-3-14B 经过 2000 步训练后,准确率达到 90.91%,超越了更大规模的 Deepseek-R1(86.67%)。

总之,TiG 框架不仅弥合了“知”与“行”的鸿沟,还在减少数据和计算需求的情况下,达到了媲美传统强化学习方法的效果。

参考链接:
[1] https://arxiv.org/abs/2508.21365
[2] https://x.com/rohanpaul_ai/status/1962499431137493195

原文链接
本文链接:https://kx.umi6.com/article/24580.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
李彦宏:百度下一代旗舰大模型研发中 会在准备就绪后尽快发布
2025-08-20 21:19:28
IDC评测9家座舱大模型产品 斑马获最多项满分推荐
2025-07-18 11:36:59
我国大模型数量居全球首位
2025-07-27 13:58:52
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
OpenAI:智谱在海外市场取得了显著进展,是大模型领域的新锐代表
2025-06-30 19:46:02
商汤需要「网感」
2025-07-09 13:03:03
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
2025-06-17 17:24:53
WAIC 2025倒计时30天!40+大模型、50+AI终端、60+智能机器人即将重磅登场
2025-06-26 17:24:23
OpenAI的命门,决定了大模型公司的未来
2025-09-03 14:48:12
对话清华大学张亚勤:智能体是大模型时代的APP
2025-06-23 08:29:04
大模型低调出展,机器人各出奇招
2025-07-26 22:49:04
对话AI教父辛顿关门弟子:为什么现有的AI方向可能是错的
2025-06-17 18:37:07
AI玩具有多火?连马斯克都入场了
2025-07-29 21:36:44
24小时热文
更多
扫一扫体验小程序