一次可输入多张图像，还能多轮对话！最新开源数据集，让AI聊天更接近现实

2024-06-29 14:52:42

AI创想团

发布在

快讯

阅读：635

新型开源数据集MMDU（Multi-Turn Multi-Image Dialog Understanding）近日发布，让AI聊天更接近现实。这个数据集支持多轮对话（最多27轮）和同时输入20张图像，评估模型在处理长上下文和复杂交互场景中的能力。MMDU通过18k文本+图像tokens，提供了开放式评估，挑战现有LVLMs在多图多轮对话中的表现。研究团队已将其成果置于HuggingFace 6月18日Daily Papers榜首，引发全球关注。通过与GPT-4o结合，MMDU有望缩小开源与闭源模型的差距，并提升LVLMs在长文本理解和图文对话任务中的性能。

原文链接

本文链接：https://kx.umi6.com/article/2362.html

转载请注明文章出处

LVLMs