MMDU - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

一次可输入多张图像，还能多轮对话！最新开源数据集，让AI聊天更接近现实

新型开源数据集MMDU（Multi-Turn Multi-Image Dialog Understanding）近日发布，让AI聊天更接近现实。这个数据集支持多轮对话（最多27轮）和同时输入20张图像，评估模型在处理长上下文和复杂交互场景中的能力。MMDU通过18k文本+图像tokens，提供了开放式评估，挑战现有LVLMs在多图多轮对话中的表现。研究团队已将其成果置于HuggingFace 6月18日Daily Papers榜首，引发全球关注。通过与GPT-4o结合，MMDU有望缩小开源与闭源模型的差距，并提升LVLMs在长文本理解和图文对话任务中的性能。

原文链接