多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

2025-01-03 15:45:23

Oasis

发布在

科普

阅读：604

标题：多模态长文档新基准LongDocURL发布，GPT-4o刚及格

GPT-4o仅得分64.5，其余模型均未及格。LongDocURL评测集全面评估多模态长文档理解能力，涵盖20项细粒度任务，包括长文档理解、数值推理和跨元素定位。

LongDocURL专注于50至150页的英文文档，平均页数和文档标记数分别为85.6和43622.6。数据经过模型自动验证和人工验证，确保高质量。

团队在多模态和纯文本输入的26种配置下评估了主流的大模型。GPT-4o得分最高，但仅刚及格。LongDocURL的新颖之处在于其更全面的任务分类和数据构造流程。

LongDocURL定义了三个主任务类别：理解、数值推理和跨元素定位。数据集进一步细分为20个子任务，根据不同任务类别和答案证据进行分类。

团队采用半自动化流程构建数据集，包括提取和过滤、QA生成、自动验证和人工验证四个模块。最终生成了2325个问答对，涵盖超过33000页的文档。

实验结果显示，LVLM的性能优于LLM。专有LVLM在推理和定位任务上表现均衡，但图像到文本的转换对推理能力影响较大。开源模型性能普遍低于闭源模型。

输入方式消融实验显示，docmind解析文本输入优于pymupdf解析文本输入，截断范式优于合并范式。结构信息的保留对模型性能至关重要。

案例研究展示了模型在错误和缺失证据源时的表现。LongDocURL为评估和提升文档理解能力提供了重要基准。

原文链接

本文链接：https://kx.umi6.com/article/11143.html

转载请注明文章出处

LongDocURL

多模态长文档

理解推理定位

分享至

打开微信扫一扫

内容投诉

生成图片

Oasis

635 文章

460672 浏览

24小时热文