1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:一场「狼人杀」,考倒了一堆大模型

人工智能越来越像人,但“像人”究竟意味着什么?除了会解题、写文,它能否理解人类个性化的推理方式?比如在狼人杀中,有人逻辑缜密,有人直觉敏锐,有人擅长伪装。AI能跟上这种风格差异吗?

南开大学与上海AI lab等机构设计了一个名为InMind的评测框架,基于社交推理游戏Avalon,对11个前沿大模型展开测试。结果发现,多数模型仍停留在表层模仿,仅少数推理增强型模型展现出初步的“风格敏感性”。

模型不会「因人而异」
在构建“推理风格画像”时,通用型模型如GLM4-9B和Qwen2.5系列的输出往往模糊笼统,例如“逻辑性强”“关注人际互动”,缺乏与具体局势的关联。而DeepSeek-R1则更细致,能结合上下文将玩家刻画为“分析型刺客”,深入动机层面。

在匿名化对局中识别符合特定风格的玩家时,多数模型表现堪忧。Top-1准确率普遍不到20%,GPT-4o仅为0.160,Qwen2.5-72B稍好,但也未突破“随机猜测+关键词匹配”的局限。相比之下,DeepSeek-R1的Top-1准确率达0.240,显著优于其他模型,表明其尝试理解并对比不同推理风格,而非简单依赖词汇匹配。

反思对齐与轨迹归因
在“反思对齐”任务中,模型需根据赛后总结推断玩家身份。有完整策略轨迹时,模型表现较好;但一旦失去轨迹,准确率大幅下滑。尤其是Qwen2.5系列,表现比GPT-4o更依赖轨迹。这说明大模型缺乏人类的内在“锚定机制”,无法自然地将抽象总结落到具体事件上。

“轨迹归因”任务要求模型逐步补全缺失信息。大多数模型表现随上下文增多反而下降,说明它们无法动态推理。DeepSeek-R1虽进步有限,但确实在利用历史信息,而GPT-4o几乎停滞不前。

角色推断与实验设计
在角色推断任务中,模型需逐步推理玩家隐藏身份。宽松条件下(提供策略轨迹和部分身份信息),模型表现最佳;但一旦去掉这些支撑,表现迅速下滑。尤其在严格模式下,多数模型力不从心。不过,在区分“好人”和“坏人”时,它们展现了一定潜力。

研究团队选用Avalon作为载体,因其能放大个体差异。他们搭建了InMind框架,通过“观察者模式”和“参与者模式”量化测试,并生成策略轨迹和反思总结。整个数据集包含30局对局、884回合、160条轨迹和30篇反思总结,覆盖多种角色,复杂且贴近真实互动。

迈向「认知一致」的人机交互
InMind实验揭示,多数大模型仍无法真正做到“因人而异”。静态任务中依赖表层词汇,动态任务中缺乏连贯性。DeepSeek-R1虽展现一定“风格敏感性”,但仍远不及人类。

InMind的意义在于打开了一条新路径:未来人机交互不仅要看“对不对”,更要看“像不像”。只有当AI能理解人类差异并在推理中保持一致性,才能成为可信赖的合作者。这场考试分数虽不理想,但它提醒我们,真正有用的AI必须学会与人类多样性共舞。

原文链接
本文链接:https://kx.umi6.com/article/24347.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
在上海WAIC,800展商无一不想成为黄仁勋
2025-07-27 07:50:27
我国大模型数量居全球首位,达到 1509 个、占比达 40%
2025-07-27 13:57:47
中国信通院开展面向大模型的全栈国产软硬件系统适配测试工作
2025-07-23 16:55:22
上海累计82款大模型通过备案
2025-07-10 11:28:53
阿里字节腾讯,集体重仓新风口
2025-10-17 14:18:54
华人AI大神霸气离职,一篇博客挑明中美大模型暗战
2025-10-11 10:14:30
OpenAI:智谱在海外市场取得了显著进展,是大模型领域的新锐代表
2025-06-30 19:46:02
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
2025-07-17 15:23:24
李彦宏:百度下一代旗舰大模型研发中 会在准备就绪后尽快发布
2025-08-20 21:19:28
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
2025-09-01 13:16:16
24小时热文
更多
扫一扫体验小程序