1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:多模态长文档新基准LongDocURL发布,GPT-4o刚及格

GPT-4o仅得分64.5,其余模型均未及格。LongDocURL评测集全面评估多模态长文档理解能力,涵盖20项细粒度任务,包括长文档理解、数值推理和跨元素定位。

LongDocURL专注于50至150页的英文文档,平均页数和文档标记数分别为85.6和43622.6。数据经过模型自动验证和人工验证,确保高质量。

团队在多模态和纯文本输入的26种配置下评估了主流的大模型。GPT-4o得分最高,但仅刚及格。LongDocURL的新颖之处在于其更全面的任务分类和数据构造流程。

LongDocURL定义了三个主任务类别:理解、数值推理和跨元素定位。数据集进一步细分为20个子任务,根据不同任务类别和答案证据进行分类。

团队采用半自动化流程构建数据集,包括提取和过滤、QA生成、自动验证和人工验证四个模块。最终生成了2325个问答对,涵盖超过33000页的文档。

实验结果显示,LVLM的性能优于LLM。专有LVLM在推理和定位任务上表现均衡,但图像到文本的转换对推理能力影响较大。开源模型性能普遍低于闭源模型。

输入方式消融实验显示,docmind解析文本输入优于pymupdf解析文本输入,截断范式优于合并范式。结构信息的保留对模型性能至关重要。

案例研究展示了模型在错误和缺失证据源时的表现。LongDocURL为评估和提升文档理解能力提供了重要基准。

原文链接
本文链接:https://kx.umi6.com/article/11143.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
2025-01-03 15:45:23
两部门:启动2025年度智能制造系统解决方案“揭榜挂帅”项目申报工作
2025-10-22 16:50:23
我国网络安全法修正草案拟完善 AI 伦理规范,加强安全监管
2025-10-23 15:10:09
通用汽车放大招:谷歌AI助手明年上车+高级智驾将解放手眼
2025-10-23 01:55:15
全球最薄仿生视触觉传感器亮相IROS 2025,一目科技引领机器人“触觉革命”
2025-10-23 15:08:17
顶会直聘!大厂ICCV现场玩出新模式,还是鹅会玩
2025-10-23 16:08:51
爱彼迎 CEO 布莱恩・切斯基“力挺”阿里通义千问:速度快、效率高、成本低
2025-10-23 12:03:18
肖远企:目前AI在金融领域的应用仍处于早期阶段 无法取代人的决策
2025-10-23 16:12:32
通义千问Qwen3-VL家族新增两个Dense模型尺寸
2025-10-22 17:51:24
IT之家采访科大讯飞高管:AI 翻译技术是为解决真实世界的沟通难题
2025-10-22 15:46:39
阿里夸克AI眼镜24日开启预售 3699元起
2025-10-23 19:13:38
上海新增2款已完成备案的生成式人工智能服务
2025-10-23 19:13:44
百亿参数人类基因组通用基础模型发布
2025-10-23 20:16:19
24小时热文
更多
扫一扫体验小程序