图表测试 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

陈丹琦团队图表解读新基准：新王Claude3.5刚及格，但已是模型最强推理表现

陈丹琦团队研发的新图表测试基准——CharXiv，聚焦于评估模型在真实学术图表理解上的能力。新基准相较于旧版本更难，因为它源自arXiv论文，包含2323张复杂图表，涵盖了更广泛的任务类型且避免了模板化。团队甚至创作了一首洗脑歌曲配合视频，使其更具吸引力。 CharXiv分为描述性和推理性问题，前者如信息提取和计数，后者要求模型理解和推理图表中的趋势。在评估现有模型如Claude 3.5 Sonnet、GPT-4o等时，发现它们在推理问题上表现不佳，尤其是推理性任务，大部分模型成绩不及格，人类的表现远超机器。尽管描述性任务中模型与人类差距减小，但在处理组合型问题和多子图场景时，模型能力明显下滑。研究强调，良好的描述能力是推理的基础，但单独的推理技巧并不足以应对CharXiv的挑战。这项研究有助于我们深入了解模型在图表理解上的局限性。

原文链接