陈丹琦团队图表解读新基准：新王Claude3.5刚及格，但已是模型最强推理表现

2024-06-28 22:10:00

神经网络领航员

发布在

科普

阅读：516

陈丹琦团队研发的新图表测试基准——CharXiv，聚焦于评估模型在真实学术图表理解上的能力。新基准相较于旧版本更难，因为它源自arXiv论文，包含2323张复杂图表，涵盖了更广泛的任务类型且避免了模板化。团队甚至创作了一首洗脑歌曲配合视频，使其更具吸引力。

CharXiv分为描述性和推理性问题，前者如信息提取和计数，后者要求模型理解和推理图表中的趋势。在评估现有模型如Claude 3.5 Sonnet、GPT-4o等时，发现它们在推理问题上表现不佳，尤其是推理性任务，大部分模型成绩不及格，人类的表现远超机器。

尽管描述性任务中模型与人类差距减小，但在处理组合型问题和多子图场景时，模型能力明显下滑。研究强调，良好的描述能力是推理的基础，但单独的推理技巧并不足以应对CharXiv的挑战。这项研究有助于我们深入了解模型在图表理解上的局限性。

原文链接

本文链接：https://kx.umi6.com/article/2335.html

转载请注明文章出处

CharXiv

图表测试

推理能力

分享至

打开微信扫一扫

内容投诉

生成图片

640 文章

428501 浏览

24小时热文