1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:一场「狼人杀」,考倒了一堆大模型

人工智能越来越像人,但“像人”究竟意味着什么?除了会解题、写文,它能否理解人类个性化的推理方式?比如在狼人杀中,有人逻辑缜密,有人直觉敏锐,有人擅长伪装。AI能跟上这种风格差异吗?

南开大学与上海AI lab等机构设计了一个名为InMind的评测框架,基于社交推理游戏Avalon,对11个前沿大模型展开测试。结果发现,多数模型仍停留在表层模仿,仅少数推理增强型模型展现出初步的“风格敏感性”。

模型不会「因人而异」
在构建“推理风格画像”时,通用型模型如GLM4-9B和Qwen2.5系列的输出往往模糊笼统,例如“逻辑性强”“关注人际互动”,缺乏与具体局势的关联。而DeepSeek-R1则更细致,能结合上下文将玩家刻画为“分析型刺客”,深入动机层面。

在匿名化对局中识别符合特定风格的玩家时,多数模型表现堪忧。Top-1准确率普遍不到20%,GPT-4o仅为0.160,Qwen2.5-72B稍好,但也未突破“随机猜测+关键词匹配”的局限。相比之下,DeepSeek-R1的Top-1准确率达0.240,显著优于其他模型,表明其尝试理解并对比不同推理风格,而非简单依赖词汇匹配。

反思对齐与轨迹归因
在“反思对齐”任务中,模型需根据赛后总结推断玩家身份。有完整策略轨迹时,模型表现较好;但一旦失去轨迹,准确率大幅下滑。尤其是Qwen2.5系列,表现比GPT-4o更依赖轨迹。这说明大模型缺乏人类的内在“锚定机制”,无法自然地将抽象总结落到具体事件上。

“轨迹归因”任务要求模型逐步补全缺失信息。大多数模型表现随上下文增多反而下降,说明它们无法动态推理。DeepSeek-R1虽进步有限,但确实在利用历史信息,而GPT-4o几乎停滞不前。

角色推断与实验设计
在角色推断任务中,模型需逐步推理玩家隐藏身份。宽松条件下(提供策略轨迹和部分身份信息),模型表现最佳;但一旦去掉这些支撑,表现迅速下滑。尤其在严格模式下,多数模型力不从心。不过,在区分“好人”和“坏人”时,它们展现了一定潜力。

研究团队选用Avalon作为载体,因其能放大个体差异。他们搭建了InMind框架,通过“观察者模式”和“参与者模式”量化测试,并生成策略轨迹和反思总结。整个数据集包含30局对局、884回合、160条轨迹和30篇反思总结,覆盖多种角色,复杂且贴近真实互动。

迈向「认知一致」的人机交互
InMind实验揭示,多数大模型仍无法真正做到“因人而异”。静态任务中依赖表层词汇,动态任务中缺乏连贯性。DeepSeek-R1虽展现一定“风格敏感性”,但仍远不及人类。

InMind的意义在于打开了一条新路径:未来人机交互不仅要看“对不对”,更要看“像不像”。只有当AI能理解人类差异并在推理中保持一致性,才能成为可信赖的合作者。这场考试分数虽不理想,但它提醒我们,真正有用的AI必须学会与人类多样性共舞。

原文链接
本文链接:https://kx.umi6.com/article/24347.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
大模型再战高考:从一本直升985
2025-06-30 23:48:58
31亿!我国大模型应用个人用户注册“爆表” 竟超全国人口规模2倍多
2025-07-31 12:06:11
当AI智能体走进诊室,大模型如何颠覆医疗?
2025-07-30 13:48:25
人民呼唤DeepSeek!
2025-07-16 12:02:16
企业管理软件是不是和AI无关?
2025-06-23 13:23:28
一场「狼人杀」,考倒了一堆大模型
2025-08-28 14:28:50
三家混战,大模型重回2023
2025-08-03 11:35:50
讯飞星火 X1 升级版模型宣布上线:整体效果对标 OpenAI o3 等国内外一流大模型
2025-07-25 14:25:03
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
2025-06-17 13:23:27
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
数字人,正在逼近盈利线
2025-07-17 12:20:37
北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师
2025-06-10 14:49:04
24小时热文
更多
扫一扫体验小程序