1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型开始打王者荣耀了

腾讯近日提出了一种名为 Think-In-Games (TiG) 的框架,让大语言模型直接进入《王者荣耀》进行训练。这一框架不仅能实时分析游戏中的盘面信息(如英雄状态、兵线、防御塔等),还能模仿人类玩家的操作,甚至以仅 14B 参数的 Qwen-3-14B 模型,击败了参数量高达 671B 的 Deepseek-R1,动作精准度达到 90.91%

TiG 的核心:边玩边学
TiG 将强化学习的决策过程重新定义为语言建模任务。大语言模型通过生成语言指导策略,并根据环境反馈进行在线强化学习优化。这种方法弥补了传统大语言模型“知其然不知其所以然”与强化学习“行动但无解释”的缺陷。

在《王者荣耀》中,TiG 主要学习人类玩家的 宏观推理能力,例如团队协作、目标控制和地图施压,而非微观操作(如技能释放)。它更像是一个金牌教练,能够精准判断局势并制定策略。例如,在一场对局中,模型会分析当前状态(如防御塔血量低、保护机制失效),建议“联合队友推掉敌方中路一塔”,并提醒风险和操作细节。

为了实现这一效果,研究团队从真实对局中采样构建数据集,并通过“重新标注算法”为每帧游戏状态标注关键宏观动作。此外,他们采用 Group Relative Policy Optimization (GRPO) 算法,结合基于规则的奖励机制(匹配人类操作得1分,否则0分)来优化模型。

训练与实验结果
TiG 的训练分为两个阶段:
1. 监督微调(SFT):从 Deepseek-R1 提取数据,提升模型推理能力。
2. 在线强化学习(RL):使用 GRPO 算法进一步优化模型表现。

实验表明,SFT 和 GRPO 的结合显著提升了模型性能。例如,Qwen-2.5-32B 在应用 GRPO 后,准确率从 66.67% 提升至 86.84%;而 Qwen-3-14B 经过 2000 步训练后,准确率达到 90.91%,超越了更大规模的 Deepseek-R1(86.67%)。

总之,TiG 框架不仅弥合了“知”与“行”的鸿沟,还在减少数据和计算需求的情况下,达到了媲美传统强化学习方法的效果。

参考链接:
[1] https://arxiv.org/abs/2508.21365
[2] https://x.com/rohanpaul_ai/status/1962499431137493195

原文链接
本文链接:https://kx.umi6.com/article/24580.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里、智谱等扎堆发布大模型 编程、金融等方向成焦点
2025-07-30 20:55:52
大模型激战正酣!大厂节前、节中进展不停 争夺下一代操作系统主导权
2025-10-05 18:23:27
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
阿里云副总裁叶杰平:大模型已呈现“周级迭代”爆发态势
2025-07-27 13:59:57
李彦宏:百度下一代旗舰大模型研发中 会在准备就绪后尽快发布
2025-08-20 21:19:28
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
上海出台17条措施促进软信业发展 优质大模型应用最高给予30%补助
2025-07-07 20:36:05
OpenAI:智谱在海外市场取得了显著进展,是大模型领域的新锐代表
2025-06-30 19:46:02
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
阿里巴巴CEO吴泳铭:大模型是下一代操作系统 AI Cloud是下一代计算机
2025-09-24 10:37:04
被AI “霸凌”失去连接词自由后,我找到了AI 写作最大的秘密
2025-07-05 19:03:37
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
31亿!我国大模型应用个人用户注册“爆表” 竟超全国人口规模2倍多
2025-07-31 12:06:11
24小时热文
更多
扫一扫体验小程序