1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:大模型法律推理优势难复制!LEXam评测集引领新标准

大模型推理能力备受关注,但在法律等实际应用领域仍有局限。近日,苏黎世联邦理工学院等机构发布全新法律推理基准数据集LEXam,涵盖瑞士、欧洲及国际法,包含4886道题目,覆盖本科至硕士水平的法律考试。该数据集在Hugging Face趋势榜排名第一,下载量超1700次。

LEXam不仅提供标准答案,还详细记录推理路径,包括问题识别、规则回忆及适用等步骤。这种设计帮助评估LLM在复杂推理中的缺陷,而非仅关注最终正确性。团队引入“LLM-as-a-Judge”模式,通过模型评估自身推理步骤质量,结果显示与专家评分高度一致,为自动化评估提供了高效路径。

测试显示,专精推理优化模型表现最佳,Gemini-2.5-Pro以82.2分领先。GPT-4系列虽表现优异,但仍落后于专精模型。此外,模型在英文任务上优于德语,跨学科法律领域表现更优,国际法题目得分高于地区法律。多选题测试表明,模型在选项增多时准确率显著下降,凸显其依赖浅层特征的局限性。

LEXam为法律推理评估提供了透明、可靠的工具,推动相关研究发展。项目主页和论文已公开供参考。

原文链接
本文链接:https://kx.umi6.com/article/19779.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
几乎都在挂羊头卖狗肉!AI Agent泡沫实在太大了
2025-10-20 11:04:42
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
2025-09-01 13:16:16
火线解析智谱AI招股书:年营收3亿增速130%,率先冲刺全球大模型第一股
2025-12-19 23:14:23
百度世界2025将于11月13日在北京举办
2025-10-13 20:03:11
AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%
2025-10-17 14:17:43
亚马逊云科技发布多款大模型
2025-12-03 14:25:54
“雷军千万年薪要挖”的 DeepSeek 罗福莉官宣加入小米 Xiaomi MiMo 大模型团队
2025-11-12 14:05:32
你用的大模型是什么MBTI?
2025-09-23 20:23:14
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
2025-09-03 17:49:26
关于 AI Infra 的一切
2025-08-11 19:08:22
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
把12个AI凑到一起打工,它们竟然搞起“小团体”?
2025-10-16 22:02:39
24小时热文
更多
扫一扫体验小程序