上海交通大学王德泉教授课题组最新研究揭示了多模态大模型在处理自相矛盾指令时的局限性。他们提出了"自相矛盾指令集"(SCI)基准测试,旨在评估模型检测冲突指令的能力。研究中,团队设计了包含2万个冲突指令的多模态基准测试,覆盖语言-语言和视觉-语言两种范式。通过构建框架AutoCreate,他们高效地生成了包含多模态冲突的任务。
实验结果显示,当前多模态大模型在处理自相矛盾指令时表现不佳,主要原因是缺乏对指令合理性的评估能力,即认知能力不足。为解决这一问题,研究团队提出了"认知觉醒提示"(CAP)方法。CAP通过在输入中加入简单的提示,为模型提供外部认知能力支持,显著提高了其矛盾检测能力,且几乎未对模型性能产生负面影响。
这一发现强调了多模态大模型在自我意识和认知能力方面的需求,以更好地处理复杂的指令冲突。研究团队表示,当前模型在面对自相矛盾的指令时存在不足,这需要更多的自我意识和认知能力。通过CAP方法,模型能够在一定程度上弥补这一缺陷。
论文的第一作者为上海交通大学博士研究生郜今,通讯作者为王德泉教授,他是上海交通大学长聘教轨助理教授、博士生导师。王教授的研究成果在国际顶级会议发表,拥有较高的学术影响力。
原文链接
本文链接:https://kx.umi6.com/article/5108.html
转载请注明文章出处
相关推荐
换一换
一场「狼人杀」,考倒了一堆大模型
2025-08-28 14:28:50
被AI “霸凌”失去连接词自由后,我找到了AI 写作最大的秘密
2025-07-05 19:03:37
华人AI大神霸气离职,一篇博客挑明中美大模型暗战
2025-10-11 10:14:30
大模型激战正酣!大厂节前、节中进展不停 争夺下一代操作系统主导权
2025-10-05 18:23:27
用DeepSeek改造ERP,到底难在哪?怎么破?
2025-10-11 09:33:30
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
2025-07-01 08:51:07
人民呼唤DeepSeek!
2025-07-16 12:02:16
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
李飞飞的答案:大模型之后,Agent向何处去?
2025-09-05 09:13:59
GPT-5 没有惊喜,但信号拉满
2025-08-11 13:00:45
一只猫就能让最强AI 答错题,Deepseek 也翻车,猫怎么成了大模型“天敌”?
2025-07-07 21:39:02
百度生成式AI和大模型专利中国第一,全栈创新驱动AI应用领先
2025-07-18 16:41:37
DeepSeek V3.2、GLM4.6等大模型即将发布
2025-09-29 17:14:30
548 文章
263543 浏览
24小时热文
更多
-
2025-10-26 00:45:16 -
2025-10-25 23:44:04 -
2025-10-25 22:43:52