1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型开始打王者荣耀了

腾讯近日提出了一种名为 Think-In-Games (TiG) 的框架,让大语言模型直接进入《王者荣耀》进行训练。这一框架不仅能实时分析游戏中的盘面信息(如英雄状态、兵线、防御塔等),还能模仿人类玩家的操作,甚至以仅 14B 参数的 Qwen-3-14B 模型,击败了参数量高达 671B 的 Deepseek-R1,动作精准度达到 90.91%

TiG 的核心:边玩边学
TiG 将强化学习的决策过程重新定义为语言建模任务。大语言模型通过生成语言指导策略,并根据环境反馈进行在线强化学习优化。这种方法弥补了传统大语言模型“知其然不知其所以然”与强化学习“行动但无解释”的缺陷。

在《王者荣耀》中,TiG 主要学习人类玩家的 宏观推理能力,例如团队协作、目标控制和地图施压,而非微观操作(如技能释放)。它更像是一个金牌教练,能够精准判断局势并制定策略。例如,在一场对局中,模型会分析当前状态(如防御塔血量低、保护机制失效),建议“联合队友推掉敌方中路一塔”,并提醒风险和操作细节。

为了实现这一效果,研究团队从真实对局中采样构建数据集,并通过“重新标注算法”为每帧游戏状态标注关键宏观动作。此外,他们采用 Group Relative Policy Optimization (GRPO) 算法,结合基于规则的奖励机制(匹配人类操作得1分,否则0分)来优化模型。

训练与实验结果
TiG 的训练分为两个阶段:
1. 监督微调(SFT):从 Deepseek-R1 提取数据,提升模型推理能力。
2. 在线强化学习(RL):使用 GRPO 算法进一步优化模型表现。

实验表明,SFT 和 GRPO 的结合显著提升了模型性能。例如,Qwen-2.5-32B 在应用 GRPO 后,准确率从 66.67% 提升至 86.84%;而 Qwen-3-14B 经过 2000 步训练后,准确率达到 90.91%,超越了更大规模的 Deepseek-R1(86.67%)。

总之,TiG 框架不仅弥合了“知”与“行”的鸿沟,还在减少数据和计算需求的情况下,达到了媲美传统强化学习方法的效果。

参考链接:
[1] https://arxiv.org/abs/2508.21365
[2] https://x.com/rohanpaul_ai/status/1962499431137493195

原文链接
本文链接:https://kx.umi6.com/article/24580.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
一场对抗OpenAI们的“危险游戏”,值不值得投资
2025-07-23 08:46:29
关于 AI Infra 的一切
2025-08-11 19:08:22
Ilya罕见发声:大模型「大力出奇迹」到头了
2025-11-26 09:32:32
大模型隐私安全和公平性有“跷跷板”效应,最佳平衡法则刚刚找到 | 人大&上海AI Lab
2025-07-28 09:07:15
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
OpenAI的命门,决定了大模型公司的未来
2025-09-03 14:48:12
我国大模型数量居全球首位
2025-07-27 13:58:52
如何避免成为AI墓地的一员?
2025-07-23 13:50:51
中国信通院开展面向大模型的全栈国产软硬件系统适配测试工作
2025-07-23 16:55:22
智谱中标679.8万元水电大模型项目
2025-11-05 20:23:03
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
大模型开始打王者荣耀了
2025-09-02 12:31:33
24小时热文
更多
扫一扫体验小程序