新型开源数据集MMDU(Multi-Turn Multi-Image Dialog Understanding)近日发布,让AI聊天更接近现实。这个数据集支持多轮对话(最多27轮)和同时输入20张图像,评估模型在处理长上下文和复杂交互场景中的能力。MMDU通过18k文本+图像tokens,提供了开放式评估,挑战现有LVLMs在多图多轮对话中的表现。研究团队已将其成果置于HuggingFace 6月18日Daily Papers榜首,引发全球关注。通过与GPT-4o结合,MMDU有望缩小开源与闭源模型的差距,并提升LVLMs在长文本理解和图文对话任务中的性能。
原文链接
本文链接:https://kx.umi6.com/article/2362.html
转载请注明文章出处
相关推荐
换一换
一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实
2024-06-29 14:52:42
荣耀董事长吴晖:已累计投入超100亿元用于AI研发
2025-10-23 12:03:24
亚马逊澄清“用机器人取代 60 万工人岗位”:只是降本增效,不和人类抢工作
2025-10-23 10:04:43
OpenAI 视频生成应用 Sora 更新在即:编辑器、安卓版 App、社交功能……
2025-10-24 09:32:35
三星在电视端首发 Perplexity AI 应用程序,带来更具创新性 AI 体验
2025-10-23 10:05:39
顶会直聘!大厂ICCV现场玩出新模式,还是鹅会玩
2025-10-23 16:08:51
字节Seed团队推出3D生成大模型Seed3D 1.0
2025-10-23 16:12:12
放开成人内容,OpenAI是为了提升性能?
2025-10-22 17:49:49
研究发现:强迫AI大量阅读社交媒体垃圾帖 会造成不可逆的脑损伤
2025-10-22 23:54:44
LiblibAI完成1.3亿美元B轮融资 为中国AI应用今年最大融资
2025-10-22 22:54:13
Meta将削减人工智能部门约600个职位 以提升决策效率
2025-10-22 23:55:49
自动驾驶,走出青春期
2025-10-23 15:09:02
存储芯片“超级周期”持续演绎:三星、SK海力士料将涨价30% 客户开启囤货模式
2025-10-23 15:11:46
558 文章
257811 浏览
24小时热文
更多
-
2025-10-24 09:34:47 -
2025-10-24 09:33:43 -
2025-10-24 09:32:35