标题:多模态长文档新基准LongDocURL发布,GPT-4o刚及格
GPT-4o仅得分64.5,其余模型均未及格。LongDocURL评测集全面评估多模态长文档理解能力,涵盖20项细粒度任务,包括长文档理解、数值推理和跨元素定位。
LongDocURL专注于50至150页的英文文档,平均页数和文档标记数分别为85.6和43622.6。数据经过模型自动验证和人工验证,确保高质量。
团队在多模态和纯文本输入的26种配置下评估了主流的大模型。GPT-4o得分最高,但仅刚及格。LongDocURL的新颖之处在于其更全面的任务分类和数据构造流程。
LongDocURL定义了三个主任务类别:理解、数值推理和跨元素定位。数据集进一步细分为20个子任务,根据不同任务类别和答案证据进行分类。
团队采用半自动化流程构建数据集,包括提取和过滤、QA生成、自动验证和人工验证四个模块。最终生成了2325个问答对,涵盖超过33000页的文档。
实验结果显示,LVLM的性能优于LLM。专有LVLM在推理和定位任务上表现均衡,但图像到文本的转换对推理能力影响较大。开源模型性能普遍低于闭源模型。
输入方式消融实验显示,docmind解析文本输入优于pymupdf解析文本输入,截断范式优于合并范式。结构信息的保留对模型性能至关重要。
案例研究展示了模型在错误和缺失证据源时的表现。LongDocURL为评估和提升文档理解能力提供了重要基准。
原文链接
本文链接:https://kx.umi6.com/article/11143.html
转载请注明文章出处
相关推荐
换一换
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
2025-01-03 15:45:23
国产AI短剧《霍去病》火到海外 播放量超5亿!3000元成本、3人团队5天产出80集
2026-03-06 17:20:41
无锡高新区发布“养龙虾”12条 最高补贴500万
2026-03-09 14:47:52
AI“养龙虾”走红 专家建议:部署OpenClaw关闭不必要的公网访问
2026-03-09 20:09:18
全国人大代表张帆:建议研究出台加强工业数据集建设的财税支持政策
2026-03-06 19:29:19
甲骨文史上最大裁员:AI未取代人力 资金转向芯片、数据中心投资
2026-03-09 18:00:21
近千名爱好者在深圳腾讯大厦门口排队安装OpenClaw 今早11点预约号发放完毕
2026-03-06 17:21:47
“办事”成全球AI新焦点:谷歌OpenAI相继投入 千问再加码
2026-03-06 18:25:27
江苏有线等成立科技公司 经营范围含集成电路芯片及产品制造等业务
2026-03-10 10:02:35
打败GPT-5.2,嵌入真实工业生产,这个大模型什么来头?
2026-03-09 16:53:38
火山引擎上线ArkClaw:开箱即用的云上SaaS版OpenClaw
2026-03-09 15:55:48
中东一场无人机轰炸 把全球智力干倒退了?
2026-03-08 07:42:40
AMD 扩展锐龙 AI 嵌入式处理器产品组合 为工业与 AI 边缘解决方案提供可扩展的高效 AI 计算能力
2026-03-10 11:07:44
635 文章
460672 浏览
24小时热文
更多
-
2026-03-10 11:10:02 -
2026-03-10 11:09:29 -
2026-03-10 11:08:54