1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:一场「狼人杀」,考倒了一堆大模型

人工智能越来越像人,但“像人”究竟意味着什么?除了会解题、写文,它能否理解人类个性化的推理方式?比如在狼人杀中,有人逻辑缜密,有人直觉敏锐,有人擅长伪装。AI能跟上这种风格差异吗?

南开大学与上海AI lab等机构设计了一个名为InMind的评测框架,基于社交推理游戏Avalon,对11个前沿大模型展开测试。结果发现,多数模型仍停留在表层模仿,仅少数推理增强型模型展现出初步的“风格敏感性”。

模型不会「因人而异」
在构建“推理风格画像”时,通用型模型如GLM4-9B和Qwen2.5系列的输出往往模糊笼统,例如“逻辑性强”“关注人际互动”,缺乏与具体局势的关联。而DeepSeek-R1则更细致,能结合上下文将玩家刻画为“分析型刺客”,深入动机层面。

在匿名化对局中识别符合特定风格的玩家时,多数模型表现堪忧。Top-1准确率普遍不到20%,GPT-4o仅为0.160,Qwen2.5-72B稍好,但也未突破“随机猜测+关键词匹配”的局限。相比之下,DeepSeek-R1的Top-1准确率达0.240,显著优于其他模型,表明其尝试理解并对比不同推理风格,而非简单依赖词汇匹配。

反思对齐与轨迹归因
在“反思对齐”任务中,模型需根据赛后总结推断玩家身份。有完整策略轨迹时,模型表现较好;但一旦失去轨迹,准确率大幅下滑。尤其是Qwen2.5系列,表现比GPT-4o更依赖轨迹。这说明大模型缺乏人类的内在“锚定机制”,无法自然地将抽象总结落到具体事件上。

“轨迹归因”任务要求模型逐步补全缺失信息。大多数模型表现随上下文增多反而下降,说明它们无法动态推理。DeepSeek-R1虽进步有限,但确实在利用历史信息,而GPT-4o几乎停滞不前。

角色推断与实验设计
在角色推断任务中,模型需逐步推理玩家隐藏身份。宽松条件下(提供策略轨迹和部分身份信息),模型表现最佳;但一旦去掉这些支撑,表现迅速下滑。尤其在严格模式下,多数模型力不从心。不过,在区分“好人”和“坏人”时,它们展现了一定潜力。

研究团队选用Avalon作为载体,因其能放大个体差异。他们搭建了InMind框架,通过“观察者模式”和“参与者模式”量化测试,并生成策略轨迹和反思总结。整个数据集包含30局对局、884回合、160条轨迹和30篇反思总结,覆盖多种角色,复杂且贴近真实互动。

迈向「认知一致」的人机交互
InMind实验揭示,多数大模型仍无法真正做到“因人而异”。静态任务中依赖表层词汇,动态任务中缺乏连贯性。DeepSeek-R1虽展现一定“风格敏感性”,但仍远不及人类。

InMind的意义在于打开了一条新路径:未来人机交互不仅要看“对不对”,更要看“像不像”。只有当AI能理解人类差异并在推理中保持一致性,才能成为可信赖的合作者。这场考试分数虽不理想,但它提醒我们,真正有用的AI必须学会与人类多样性共舞。

原文链接
本文链接:https://kx.umi6.com/article/24347.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
不整虚的!中美AI同步加速:47天30次更新,中国AI的最强主场究竟在哪?
2026-02-22 18:50:22
我国大模型密集落地 新技术加速普惠应用
2026-02-14 12:17:30
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
Manus救不了Meta
2026-01-08 20:35:12
长三角一体化大模型发布 AI将为区域发展提供决策支撑
2026-01-12 09:40:07
月之暗面近20天收入超去年全年
2026-02-23 19:11:04
智谱AI今日正式上市,一文讲透你想知道的6件事
2026-01-09 21:35:10
花3000元让AI改口,大模型的尽头是广告?
2026-01-06 19:29:29
两部门:到2027年推动五个以上专业大模型在电网、发电、煤炭、油气等行业深度应用
2025-09-08 10:56:26
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026
2025-12-22 10:34:39
把12个AI凑到一起打工,它们竟然搞起“小团体”?
2025-10-16 22:02:39
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式
2025-12-16 10:32:22
阿里巴巴CEO吴泳铭:大模型是下一代操作系统 AI Cloud是下一代计算机
2025-09-24 10:37:04
24小时热文
更多
扫一扫体验小程序