新型开源数据集MMDU(Multi-Turn Multi-Image Dialog Understanding)近日发布,让AI聊天更接近现实。这个数据集支持多轮对话(最多27轮)和同时输入20张图像,评估模型在处理长上下文和复杂交互场景中的能力。MMDU通过18k文本+图像tokens,提供了开放式评估,挑战现有LVLMs在多图多轮对话中的表现。研究团队已将其成果置于HuggingFace 6月18日Daily Papers榜首,引发全球关注。通过与GPT-4o结合,MMDU有望缩小开源与闭源模型的差距,并提升LVLMs在长文本理解和图文对话任务中的性能。
原文链接
本文链接:https://kx.umi6.com/article/2362.html
转载请注明文章出处
相关推荐
.png)
换一换
你是一个成熟的Agent了,该自己报道ChatGPT Agent的新闻了
2025-07-18 16:43:42
百度生成式AI和大模型专利中国第一,全栈创新驱动AI应用领先
2025-07-18 16:41:37
美批准对华销售H20芯片 中方回应
2025-07-18 14:43:02
447 文章
69882 浏览
24小时热文
更多

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13