标题:大模型法律推理优势难复制!LEXam评测集引领新标准
大模型推理能力备受关注,但在法律等实际应用领域仍有局限。近日,苏黎世联邦理工学院等机构发布全新法律推理基准数据集LEXam,涵盖瑞士、欧洲及国际法,包含4886道题目,覆盖本科至硕士水平的法律考试。该数据集在Hugging Face趋势榜排名第一,下载量超1700次。
LEXam不仅提供标准答案,还详细记录推理路径,包括问题识别、规则回忆及适用等步骤。这种设计帮助评估LLM在复杂推理中的缺陷,而非仅关注最终正确性。团队引入“LLM-as-a-Judge”模式,通过模型评估自身推理步骤质量,结果显示与专家评分高度一致,为自动化评估提供了高效路径。
测试显示,专精推理优化模型表现最佳,Gemini-2.5-Pro以82.2分领先。GPT-4系列虽表现优异,但仍落后于专精模型。此外,模型在英文任务上优于德语,跨学科法律领域表现更优,国际法题目得分高于地区法律。多选题测试表明,模型在选项增多时准确率显著下降,凸显其依赖浅层特征的局限性。
LEXam为法律推理评估提供了透明、可靠的工具,推动相关研究发展。项目主页和论文已公开供参考。
原文链接
本文链接:https://kx.umi6.com/article/19779.html
转载请注明文章出处
相关推荐
换一换
开源 AI 模型 TOP5,被中国厂商包圆
2025-10-15 18:39:57
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025-12-04 12:18:33
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
智谱AI,排名「第二」
2025-12-21 12:41:26
腾讯AI下了一场「及时雨」
2025-12-19 10:42:16
消息称腾讯大模型团队架构调整:前 OpenAI 研究员姚顺雨任要职,校招最高 2 倍薪资挖 AI 人才
2025-12-17 17:57:42
智谱、MiniMax争夺「大模型第一股」
2025-12-24 10:30:23
腾讯宣布升级大模型研发架构 前OpenAI研究员姚顺雨任要职
2025-12-17 17:58:49
阿里千问大模型换将,32岁林俊旸官宣告别
2026-03-04 10:27:38
月之暗面近20天收入超去年全年
2026-02-23 19:11:04
腾讯发布全新大模型混元3D 3.0
2025-09-16 10:11:57
备案平均时长缩至2个月 目前已有216款大模型在京完成备案
2026-02-28 19:46:01
智谱AI今日正式上市,一文讲透你想知道的6件事
2026-01-09 21:35:10
640 文章
428829 浏览
24小时热文
更多
-
2026-03-10 09:02:22 -
2026-03-10 09:01:12 -
2026-03-10 09:00:02