上海交通大学王德泉教授课题组最新研究揭示了多模态大模型在处理自相矛盾指令时的局限性。他们提出了"自相矛盾指令集"(SCI)基准测试,旨在评估模型检测冲突指令的能力。研究中,团队设计了包含2万个冲突指令的多模态基准测试,覆盖语言-语言和视觉-语言两种范式。通过构建框架AutoCreate,他们高效地生成了包含多模态冲突的任务。
实验结果显示,当前多模态大模型在处理自相矛盾指令时表现不佳,主要原因是缺乏对指令合理性的评估能力,即认知能力不足。为解决这一问题,研究团队提出了"认知觉醒提示"(CAP)方法。CAP通过在输入中加入简单的提示,为模型提供外部认知能力支持,显著提高了其矛盾检测能力,且几乎未对模型性能产生负面影响。
这一发现强调了多模态大模型在自我意识和认知能力方面的需求,以更好地处理复杂的指令冲突。研究团队表示,当前模型在面对自相矛盾的指令时存在不足,这需要更多的自我意识和认知能力。通过CAP方法,模型能够在一定程度上弥补这一缺陷。
论文的第一作者为上海交通大学博士研究生郜今,通讯作者为王德泉教授,他是上海交通大学长聘教轨助理教授、博士生导师。王教授的研究成果在国际顶级会议发表,拥有较高的学术影响力。
原文链接
本文链接:https://kx.umi6.com/article/5108.html
转载请注明文章出处
相关推荐
换一换
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026-02-05 08:39:59
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
花3000元让AI改口,大模型的尽头是广告?
2026-01-06 19:29:29
OpenAI的命门,决定了大模型公司的未来
2025-09-03 14:48:12
ToC智能体火得快,但更大的价值在企业丨中关村科金@MEET2026
2025-12-12 14:53:17
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这
2025-12-11 15:57:49
中国AI云,开始「抢座次」了
2025-11-20 11:17:00
百度世界2025将于11月13日在北京举办
2025-10-13 20:03:11
大模型激战正酣!大厂节前、节中进展不停 争夺下一代操作系统主导权
2025-10-05 18:23:27
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026
2025-12-21 10:35:20
大模型即OS,AI云即计算机:阿里的全栈赌注
2025-09-25 10:00:29
智谱AI今日正式上市,一文讲透你想知道的6件事
2026-01-09 21:35:10
华人AI大神霸气离职,一篇博客挑明中美大模型暗战
2025-10-11 10:14:30
688 文章
484028 浏览
24小时热文
更多
-
2026-02-11 01:51:06 -
2026-02-11 00:47:52 -
2026-02-10 22:43:56