新型开源数据集MMDU(Multi-Turn Multi-Image Dialog Understanding)近日发布,让AI聊天更接近现实。这个数据集支持多轮对话(最多27轮)和同时输入20张图像,评估模型在处理长上下文和复杂交互场景中的能力。MMDU通过18k文本+图像tokens,提供了开放式评估,挑战现有LVLMs在多图多轮对话中的表现。研究团队已将其成果置于HuggingFace 6月18日Daily Papers榜首,引发全球关注。通过与GPT-4o结合,MMDU有望缩小开源与闭源模型的差距,并提升LVLMs在长文本理解和图文对话任务中的性能。
原文链接
本文链接:https://kx.umi6.com/article/2362.html
转载请注明文章出处
相关推荐
.png)
换一换
一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实
2024-06-29 14:52:42
月之暗面 Kimi K2 宣布更新:上下文长度扩展至 256K,带来更快的 API
2025-09-05 12:17:23
AI如何让获客成本直降80%,利润翻三倍?
2025-09-05 14:21:15
中国电科王平:国内半导体装备已进入“战国时代”
2025-09-05 21:27:41
AI收入超预期!芯片巨头博通交出满分财报 神秘百亿订单带来惊喜
2025-09-05 09:15:08
9.16-9.17来腾讯全球数字生态大会,与行业大咖「智者见智」共话AI增益新机
2025-09-04 20:06:13
人形机器人学会用洗碗机,Figure 放出最新演示
2025-09-04 22:09:37
硅谷版的“莞莞类卿”?分析师称博通业绩增速令人想起早年的英伟达
2025-09-06 15:35:56
智谱推出“Claude API 用户特别搬家计划”:替换 API URL 即可无缝切换
2025-09-05 18:22:23
马斯克旗下AI女友Ani夏装换新:高叉热裤到热辣比基尼
2025-09-04 23:08:57
高盛:人人都在谈论AI 但目前AI仍难与公司利润直接挂钩
2025-09-05 18:25:52
英伟达砸15亿美元 从Lambda租用搭载自家芯片的GPU服务器
2025-09-05 15:26:12
OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
2025-09-06 11:35:08
505 文章
166906 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24