标题:多模态长文档新基准LongDocURL发布,GPT-4o刚及格
GPT-4o仅得分64.5,其余模型均未及格。LongDocURL评测集全面评估多模态长文档理解能力,涵盖20项细粒度任务,包括长文档理解、数值推理和跨元素定位。
LongDocURL专注于50至150页的英文文档,平均页数和文档标记数分别为85.6和43622.6。数据经过模型自动验证和人工验证,确保高质量。
团队在多模态和纯文本输入的26种配置下评估了主流的大模型。GPT-4o得分最高,但仅刚及格。LongDocURL的新颖之处在于其更全面的任务分类和数据构造流程。
LongDocURL定义了三个主任务类别:理解、数值推理和跨元素定位。数据集进一步细分为20个子任务,根据不同任务类别和答案证据进行分类。
团队采用半自动化流程构建数据集,包括提取和过滤、QA生成、自动验证和人工验证四个模块。最终生成了2325个问答对,涵盖超过33000页的文档。
实验结果显示,LVLM的性能优于LLM。专有LVLM在推理和定位任务上表现均衡,但图像到文本的转换对推理能力影响较大。开源模型性能普遍低于闭源模型。
输入方式消融实验显示,docmind解析文本输入优于pymupdf解析文本输入,截断范式优于合并范式。结构信息的保留对模型性能至关重要。
案例研究展示了模型在错误和缺失证据源时的表现。LongDocURL为评估和提升文档理解能力提供了重要基准。
原文链接
本文链接:https://kx.umi6.com/article/11143.html
转载请注明文章出处
相关推荐
.png)
换一换
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
2025-01-03 15:45:23
李飞飞的答案:大模型之后,Agent向何处去?
2025-09-05 09:13:59
OpenAI 不想再「跪着」买显卡了
2025-09-05 18:24:42
习近平向2025世界智能产业博览会致贺信
2025-09-05 10:23:48
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
2025-09-05 13:20:04
英伟达砸15亿美元 从Lambda租用搭载自家芯片的GPU服务器
2025-09-05 15:26:12
巴克莱银行:AI浪潮有望催生千亿美元以上级并购交易
2025-09-04 19:08:00
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
2025-09-06 12:37:03
AI“P 图”爆火出圈:“Nano Banana”一周为谷歌 Gemini 吸引千万新用户
2025-09-05 08:12:32
DeepSeek被曝开发AI智能体模型:能自主完成多步工作
2025-09-05 08:15:12
别只用Nano Banana 生图了,视频生成才是王炸组合,这些隐藏玩法真香
2025-09-05 12:19:55
Waymo将于今年秋季在圣何塞机场测试无人驾驶汽车
2025-09-05 09:16:13
AI基建赛道,液冷已领跑
2025-09-04 16:03:33
461 文章
171699 浏览
24小时热文
更多

-
2025-09-06 15:35:56
-
2025-09-06 15:35:37
-
2025-09-06 14:35:37