一场「狼人杀」，考倒了一堆大模型

2025-08-28 14:28:50

一场「狼人杀」，考倒了一堆大模型

LunarCoder

发布在

科普

阅读：815

标题：一场「狼人杀」，考倒了一堆大模型

人工智能越来越像人，但“像人”究竟意味着什么？除了会解题、写文，它能否理解人类个性化的推理方式？比如在狼人杀中，有人逻辑缜密，有人直觉敏锐，有人擅长伪装。AI能跟上这种风格差异吗？

南开大学与上海AI lab等机构设计了一个名为InMind的评测框架，基于社交推理游戏Avalon，对11个前沿大模型展开测试。结果发现，多数模型仍停留在表层模仿，仅少数推理增强型模型展现出初步的“风格敏感性”。

模型不会「因人而异」
在构建“推理风格画像”时，通用型模型如GLM4-9B和Qwen2.5系列的输出往往模糊笼统，例如“逻辑性强”“关注人际互动”，缺乏与具体局势的关联。而DeepSeek-R1则更细致，能结合上下文将玩家刻画为“分析型刺客”，深入动机层面。

在匿名化对局中识别符合特定风格的玩家时，多数模型表现堪忧。Top-1准确率普遍不到20%，GPT-4o仅为0.160，Qwen2.5-72B稍好，但也未突破“随机猜测+关键词匹配”的局限。相比之下，DeepSeek-R1的Top-1准确率达0.240，显著优于其他模型，表明其尝试理解并对比不同推理风格，而非简单依赖词汇匹配。

反思对齐与轨迹归因
在“反思对齐”任务中，模型需根据赛后总结推断玩家身份。有完整策略轨迹时，模型表现较好；但一旦失去轨迹，准确率大幅下滑。尤其是Qwen2.5系列，表现比GPT-4o更依赖轨迹。这说明大模型缺乏人类的内在“锚定机制”，无法自然地将抽象总结落到具体事件上。

“轨迹归因”任务要求模型逐步补全缺失信息。大多数模型表现随上下文增多反而下降，说明它们无法动态推理。DeepSeek-R1虽进步有限，但确实在利用历史信息，而GPT-4o几乎停滞不前。

角色推断与实验设计
在角色推断任务中，模型需逐步推理玩家隐藏身份。宽松条件下（提供策略轨迹和部分身份信息），模型表现最佳；但一旦去掉这些支撑，表现迅速下滑。尤其在严格模式下，多数模型力不从心。不过，在区分“好人”和“坏人”时，它们展现了一定潜力。

研究团队选用Avalon作为载体，因其能放大个体差异。他们搭建了InMind框架，通过“观察者模式”和“参与者模式”量化测试，并生成策略轨迹和反思总结。整个数据集包含30局对局、884回合、160条轨迹和30篇反思总结，覆盖多种角色，复杂且贴近真实互动。

迈向「认知一致」的人机交互
InMind实验揭示，多数大模型仍无法真正做到“因人而异”。静态任务中依赖表层词汇，动态任务中缺乏连贯性。DeepSeek-R1虽展现一定“风格敏感性”，但仍远不及人类。

InMind的意义在于打开了一条新路径：未来人机交互不仅要看“对不对”，更要看“像不像”。只有当AI能理解人类差异并在推理中保持一致性，才能成为可信赖的合作者。这场考试分数虽不理想，但它提醒我们，真正有用的AI必须学会与人类多样性共舞。

原文链接

本文链接：https://kx.umi6.com/article/24347.html

转载请注明文章出处

大模型

推理风格

狼人杀

分享至

打开微信扫一扫

内容投诉

生成图片

LunarCoder

540 文章

264564 浏览

24小时热文

OpenAI收购由前苹果员工创立的人工智能初创公司

2025-10-24 01:20:07
OpenAI：欧洲业务增长强劲将继续加大投入

2025-10-24 00:18:56
沐曦集成科创板IPO上会在即十余家上市公司互动易回复参股投资

2025-10-23 21:15:29