上海交通大学王德泉教授课题组最新研究揭示了多模态大模型在处理自相矛盾指令时的局限性。他们提出了"自相矛盾指令集"(SCI)基准测试,旨在评估模型检测冲突指令的能力。研究中,团队设计了包含2万个冲突指令的多模态基准测试,覆盖语言-语言和视觉-语言两种范式。通过构建框架AutoCreate,他们高效地生成了包含多模态冲突的任务。
实验结果显示,当前多模态大模型在处理自相矛盾指令时表现不佳,主要原因是缺乏对指令合理性的评估能力,即认知能力不足。为解决这一问题,研究团队提出了"认知觉醒提示"(CAP)方法。CAP通过在输入中加入简单的提示,为模型提供外部认知能力支持,显著提高了其矛盾检测能力,且几乎未对模型性能产生负面影响。
这一发现强调了多模态大模型在自我意识和认知能力方面的需求,以更好地处理复杂的指令冲突。研究团队表示,当前模型在面对自相矛盾的指令时存在不足,这需要更多的自我意识和认知能力。通过CAP方法,模型能够在一定程度上弥补这一缺陷。
论文的第一作者为上海交通大学博士研究生郜今,通讯作者为王德泉教授,他是上海交通大学长聘教轨助理教授、博士生导师。王教授的研究成果在国际顶级会议发表,拥有较高的学术影响力。
原文链接
本文链接:https://kx.umi6.com/article/5108.html
转载请注明文章出处
相关推荐
换一换
Gartner首次发布大模型报告:火山引擎排名中国厂商第一
2025-11-20 12:17:36
北京备案大模型达225款 占全国总量约三成
2026-04-22 20:27:12
“雷军千万年薪要挖”的 DeepSeek 罗福莉官宣加入小米 Xiaomi MiMo 大模型团队
2025-11-12 14:05:32
卓世科技,股改完成!
2026-01-05 15:08:15
几乎都在挂羊头卖狗肉!AI Agent泡沫实在太大了
2025-10-20 11:04:42
消息称小米研发智能问答助手产品“Mi Chat”
2025-12-09 17:51:08
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式
2025-12-16 10:32:22
腾讯混元大模型品牌 Hunyuan 更名为 HY
2025-12-10 15:53:58
智谱上市后首份财报:超7.24亿元!国内收入最高大模型公司,MaaS发力了
2026-03-31 21:04:07
上海:推动医疗器械相关垂类大模型研发应用
2025-09-15 16:02:14
用DeepSeek改造ERP,到底难在哪?怎么破?
2025-10-11 09:33:30
大模型驱动算力革命 AI芯片迎破局新机遇
2025-09-18 07:47:51
火线解析智谱AI招股书:年营收3亿增速130%,率先冲刺全球大模型第一股
2025-12-19 23:14:23
764 文章
712905 浏览
24小时热文
更多
-
2026-06-09 11:14:27 -
2026-06-09 11:12:33 -
2026-06-09 10:10:47