标题:一场「狼人杀」,考倒了一堆大模型
人工智能越来越像人,但“像人”究竟意味着什么?除了会解题、写文,它能否理解人类个性化的推理方式?比如在狼人杀中,有人逻辑缜密,有人直觉敏锐,有人擅长伪装。AI能跟上这种风格差异吗?
南开大学与上海AI lab等机构设计了一个名为InMind的评测框架,基于社交推理游戏Avalon,对11个前沿大模型展开测试。结果发现,多数模型仍停留在表层模仿,仅少数推理增强型模型展现出初步的“风格敏感性”。
模型不会「因人而异」
在构建“推理风格画像”时,通用型模型如GLM4-9B和Qwen2.5系列的输出往往模糊笼统,例如“逻辑性强”“关注人际互动”,缺乏与具体局势的关联。而DeepSeek-R1则更细致,能结合上下文将玩家刻画为“分析型刺客”,深入动机层面。
在匿名化对局中识别符合特定风格的玩家时,多数模型表现堪忧。Top-1准确率普遍不到20%,GPT-4o仅为0.160,Qwen2.5-72B稍好,但也未突破“随机猜测+关键词匹配”的局限。相比之下,DeepSeek-R1的Top-1准确率达0.240,显著优于其他模型,表明其尝试理解并对比不同推理风格,而非简单依赖词汇匹配。
反思对齐与轨迹归因
在“反思对齐”任务中,模型需根据赛后总结推断玩家身份。有完整策略轨迹时,模型表现较好;但一旦失去轨迹,准确率大幅下滑。尤其是Qwen2.5系列,表现比GPT-4o更依赖轨迹。这说明大模型缺乏人类的内在“锚定机制”,无法自然地将抽象总结落到具体事件上。
“轨迹归因”任务要求模型逐步补全缺失信息。大多数模型表现随上下文增多反而下降,说明它们无法动态推理。DeepSeek-R1虽进步有限,但确实在利用历史信息,而GPT-4o几乎停滞不前。
角色推断与实验设计
在角色推断任务中,模型需逐步推理玩家隐藏身份。宽松条件下(提供策略轨迹和部分身份信息),模型表现最佳;但一旦去掉这些支撑,表现迅速下滑。尤其在严格模式下,多数模型力不从心。不过,在区分“好人”和“坏人”时,它们展现了一定潜力。
研究团队选用Avalon作为载体,因其能放大个体差异。他们搭建了InMind框架,通过“观察者模式”和“参与者模式”量化测试,并生成策略轨迹和反思总结。整个数据集包含30局对局、884回合、160条轨迹和30篇反思总结,覆盖多种角色,复杂且贴近真实互动。
迈向「认知一致」的人机交互
InMind实验揭示,多数大模型仍无法真正做到“因人而异”。静态任务中依赖表层词汇,动态任务中缺乏连贯性。DeepSeek-R1虽展现一定“风格敏感性”,但仍远不及人类。
InMind的意义在于打开了一条新路径:未来人机交互不仅要看“对不对”,更要看“像不像”。只有当AI能理解人类差异并在推理中保持一致性,才能成为可信赖的合作者。这场考试分数虽不理想,但它提醒我们,真正有用的AI必须学会与人类多样性共舞。
.png)

-
2025-08-29 07:35:15
-
2025-08-29 07:34:05
-
2025-08-29 07:32:56