1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型开始打王者荣耀了

腾讯近日提出了一种名为 Think-In-Games (TiG) 的框架,让大语言模型直接进入《王者荣耀》进行训练。这一框架不仅能实时分析游戏中的盘面信息(如英雄状态、兵线、防御塔等),还能模仿人类玩家的操作,甚至以仅 14B 参数的 Qwen-3-14B 模型,击败了参数量高达 671B 的 Deepseek-R1,动作精准度达到 90.91%

TiG 的核心:边玩边学
TiG 将强化学习的决策过程重新定义为语言建模任务。大语言模型通过生成语言指导策略,并根据环境反馈进行在线强化学习优化。这种方法弥补了传统大语言模型“知其然不知其所以然”与强化学习“行动但无解释”的缺陷。

在《王者荣耀》中,TiG 主要学习人类玩家的 宏观推理能力,例如团队协作、目标控制和地图施压,而非微观操作(如技能释放)。它更像是一个金牌教练,能够精准判断局势并制定策略。例如,在一场对局中,模型会分析当前状态(如防御塔血量低、保护机制失效),建议“联合队友推掉敌方中路一塔”,并提醒风险和操作细节。

为了实现这一效果,研究团队从真实对局中采样构建数据集,并通过“重新标注算法”为每帧游戏状态标注关键宏观动作。此外,他们采用 Group Relative Policy Optimization (GRPO) 算法,结合基于规则的奖励机制(匹配人类操作得1分,否则0分)来优化模型。

训练与实验结果
TiG 的训练分为两个阶段:
1. 监督微调(SFT):从 Deepseek-R1 提取数据,提升模型推理能力。
2. 在线强化学习(RL):使用 GRPO 算法进一步优化模型表现。

实验表明,SFT 和 GRPO 的结合显著提升了模型性能。例如,Qwen-2.5-32B 在应用 GRPO 后,准确率从 66.67% 提升至 86.84%;而 Qwen-3-14B 经过 2000 步训练后,准确率达到 90.91%,超越了更大规模的 Deepseek-R1(86.67%)。

总之,TiG 框架不仅弥合了“知”与“行”的鸿沟,还在减少数据和计算需求的情况下,达到了媲美传统强化学习方法的效果。

参考链接:
[1] https://arxiv.org/abs/2508.21365
[2] https://x.com/rohanpaul_ai/status/1962499431137493195

原文链接
本文链接:https://kx.umi6.com/article/24580.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
百度新设两个大模型研发部:直接向CEO李彦宏汇报!
2025-11-25 22:10:22
三家混战,大模型重回2023
2025-08-03 11:35:50
用DeepSeek改造ERP,到底难在哪?怎么破?
2025-10-11 09:33:30
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
几乎都在挂羊头卖狗肉!AI Agent泡沫实在太大了
2025-10-20 11:04:42
智谱AI今日正式上市,一文讲透你想知道的6件事
2026-01-09 21:35:10
Ilya罕见发声:大模型「大力出奇迹」到头了
2025-11-26 09:32:32
两部门:到2027年推动五个以上专业大模型在电网、发电、煤炭、油气等行业深度应用
2025-09-08 10:56:26
ToC智能体火得快,但更大的价值在企业丨中关村科金@MEET2026
2025-12-12 14:53:17
字节跳动、阿里AI“大将”出走 大模型厂商中高层流动持续
2025-08-25 21:35:41
阿里巴巴CEO吴泳铭:大模型是下一代操作系统 AI Cloud是下一代计算机
2025-09-24 10:37:04
腾讯宣布升级大模型研发架构 前OpenAI研究员姚顺雨任要职
2025-12-17 17:58:49
24小时热文
更多
扫一扫体验小程序