上海交通大学王德泉教授课题组最新研究揭示了多模态大模型在处理自相矛盾指令时的局限性。他们提出了"自相矛盾指令集"(SCI)基准测试,旨在评估模型检测冲突指令的能力。研究中,团队设计了包含2万个冲突指令的多模态基准测试,覆盖语言-语言和视觉-语言两种范式。通过构建框架AutoCreate,他们高效地生成了包含多模态冲突的任务。
实验结果显示,当前多模态大模型在处理自相矛盾指令时表现不佳,主要原因是缺乏对指令合理性的评估能力,即认知能力不足。为解决这一问题,研究团队提出了"认知觉醒提示"(CAP)方法。CAP通过在输入中加入简单的提示,为模型提供外部认知能力支持,显著提高了其矛盾检测能力,且几乎未对模型性能产生负面影响。
这一发现强调了多模态大模型在自我意识和认知能力方面的需求,以更好地处理复杂的指令冲突。研究团队表示,当前模型在面对自相矛盾的指令时存在不足,这需要更多的自我意识和认知能力。通过CAP方法,模型能够在一定程度上弥补这一缺陷。
论文的第一作者为上海交通大学博士研究生郜今,通讯作者为王德泉教授,他是上海交通大学长聘教轨助理教授、博士生导师。王教授的研究成果在国际顶级会议发表,拥有较高的学术影响力。
原文链接
本文链接:https://kx.umi6.com/article/5108.html
转载请注明文章出处
相关推荐
.png)
换一换
阿里云副总裁叶杰平:大模型已呈现“周级迭代”爆发态势
2025-07-27 13:59:57
一场「狼人杀」,考倒了一堆大模型
2025-08-28 14:28:50
杨植麟和闫俊杰首次「撞车」
2025-06-23 08:20:52
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
大模型参与推理崩溃论战!从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」
2025-06-20 18:02:43
两部门:到2027年推动五个以上专业大模型在电网、发电、煤炭、油气等行业深度应用
2025-09-08 10:56:26
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
2025-06-17 13:23:27
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
2025-09-03 17:49:26
人类正在被AI「幻觉」欺骗
2025-08-20 10:10:57
大模型六小虎,创业小败局?
2025-06-23 13:31:23
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
港股AGI第一股“云知声”首战告捷:大模型贡献1亿收入,单客价直线提升116.2%,AI保险业务暴涨1386.8%
2025-08-29 20:43:34
AI玩具有多火?连马斯克都入场了
2025-07-29 21:36:44
491 文章
176350 浏览
24小时热文
更多

-
2025-09-09 14:25:18
-
2025-09-09 14:24:09
-
2025-09-09 14:23:58