大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

2025-06-05 16:55:30

神经网络领航员

发布在

科普

阅读：1273

标题：大模型法律推理优势难复制！LEXam评测集引领新标准

大模型推理能力备受关注，但在法律等实际应用领域仍有局限。近日，苏黎世联邦理工学院等机构发布全新法律推理基准数据集LEXam，涵盖瑞士、欧洲及国际法，包含4886道题目，覆盖本科至硕士水平的法律考试。该数据集在Hugging Face趋势榜排名第一，下载量超1700次。

LEXam不仅提供标准答案，还详细记录推理路径，包括问题识别、规则回忆及适用等步骤。这种设计帮助评估LLM在复杂推理中的缺陷，而非仅关注最终正确性。团队引入“LLM-as-a-Judge”模式，通过模型评估自身推理步骤质量，结果显示与专家评分高度一致，为自动化评估提供了高效路径。

测试显示，专精推理优化模型表现最佳，Gemini-2.5-Pro以82.2分领先。GPT-4系列虽表现优异，但仍落后于专精模型。此外，模型在英文任务上优于德语，跨学科法律领域表现更优，国际法题目得分高于地区法律。多选题测试表明，模型在选项增多时准确率显著下降，凸显其依赖浅层特征的局限性。

LEXam为法律推理评估提供了透明、可靠的工具，推动相关研究发展。项目主页和论文已公开供参考。

原文链接

本文链接：https://kx.umi6.com/article/19779.html

转载请注明文章出处

大模型

法律推理

评估标准

分享至

打开微信扫一扫

内容投诉

生成图片

694 文章

726208 浏览

24小时热文