标题:大模型法律推理优势难复制!LEXam评测集引领新标准
大模型推理能力备受关注,但在法律等实际应用领域仍有局限。近日,苏黎世联邦理工学院等机构发布全新法律推理基准数据集LEXam,涵盖瑞士、欧洲及国际法,包含4886道题目,覆盖本科至硕士水平的法律考试。该数据集在Hugging Face趋势榜排名第一,下载量超1700次。
LEXam不仅提供标准答案,还详细记录推理路径,包括问题识别、规则回忆及适用等步骤。这种设计帮助评估LLM在复杂推理中的缺陷,而非仅关注最终正确性。团队引入“LLM-as-a-Judge”模式,通过模型评估自身推理步骤质量,结果显示与专家评分高度一致,为自动化评估提供了高效路径。
测试显示,专精推理优化模型表现最佳,Gemini-2.5-Pro以82.2分领先。GPT-4系列虽表现优异,但仍落后于专精模型。此外,模型在英文任务上优于德语,跨学科法律领域表现更优,国际法题目得分高于地区法律。多选题测试表明,模型在选项增多时准确率显著下降,凸显其依赖浅层特征的局限性。
LEXam为法律推理评估提供了透明、可靠的工具,推动相关研究发展。项目主页和论文已公开供参考。
原文链接
本文链接:https://kx.umi6.com/article/19779.html
转载请注明文章出处
相关推荐
换一换
美团 LongCat 大模型官方 App 发布:支持联网搜索,还可以发起语音通话
2025-11-03 14:22:48
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
消息称小米研发智能问答助手产品“Mi Chat”
2025-12-09 17:51:08
美图吴欣鸿回应大模型竞争:美图应用数据仍在快速增长
2026-02-05 18:05:31
北京备案大模型达225款 占全国总量约三成
2026-04-22 20:27:12
国务院:深入实施“人工智能+”行动 支持采购大模型、智能体服务
2026-04-21 17:21:09
智谱AI今日正式上市,一文讲透你想知道的6件事
2026-01-09 21:35:10
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025-12-04 12:18:33
腾讯AI下了一场「及时雨」
2025-12-19 10:42:16
中信建投:持续推荐AI算力板块
2025-10-28 08:39:40
智谱中标679.8万元水电大模型项目
2025-11-05 20:23:03
国产模型+国产芯片“蜜月期”开启!DeepSeek、智谱密集上新 华为、寒武纪芯片火速适配
2025-09-30 21:35:35
腾讯发布全新大模型混元3D 3.0
2025-09-16 10:11:57
684 文章
577751 浏览
24小时热文
更多
-
2026-06-08 23:49:41 -
2026-06-08 21:46:02 -
2026-06-08 19:42:13