法国国家高等教育计算中心与巴黎萨克雷大学的研究人员共同开源了专用于法律领域的大型模型SaulLM,该模型分为540亿参数和1410亿参数两种版本,以及基础模型和指令微调两种类型。SaulLM的独特之处在于其利用5400亿token的专业法律数据进行了预训练,涵盖了美国、欧洲及澳大利亚等地的法律文本,其输出内容的准确率显著高于同类模型。SaulLM基于Mixtral系列模型开发,通过引入专家混合(MoE)机制,显著提升了处理大规模数据的能力。 SaulLM-54B由32层构成,模型维度为4096,隐藏维度为14336;而SaulLM-141B则更为复杂,由56层构成,模型维度增至6144,隐藏维度达到16384。这两个模型均能支持长达32768和65536个token的上下文长度。在训练过程中,研究团队采用分段策略,包括持续预训练、专业法律指令遵循协议的实施以及模型输出与人类偏好的对齐。在专业法律基准测试平台LegalBench-Instruct和多基准平台MMLU上的综合评估显示,SaulLM在法律领域表现出色,优于GPT-4和Llama-3等其他模型,且通过继续预训练在法律领域的性能得到了显著提升。
原文链接
本文链接:https://kx.umi6.com/article/6171.html
转载请注明文章出处
相关推荐
.png)
换一换
Llama 4发布:我看到了DeepSeek的影子
2025-04-06 16:06:56
业界首个:腾讯混元-A13B 模型发布并开源,极端条件 1 张中低端 GPU 卡即可部署
2025-06-27 17:10:33
4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
2025-02-12 13:26:11
专用于法律的两个开源大模型,最高1410亿参数
2024-09-11 16:28:58
腾讯发布并开源混元-A13B模型:极端条件仅1张中低端GPU卡即可部署
2025-06-27 17:17:05
字节跳动豆包大模型团队开源MoE架构优化技术,训练成本节省40%
2025-03-10 18:50:46
上海AI公司开源模型登上全球第二
2025-07-03 07:50:43
DeepSeek有四点我蛮佩服
2025-01-25 15:58:57
阿里开源电影级视频生成模型通义万相2.2
2025-07-28 21:20:36
豆包1.5 Pro重磅更新!7倍MoE性能杠杆,“不使用任何其他模型数据”
2025-01-22 23:05:37
全球首个法律o1大模型发布,System2范式下慢思考法律专家|港科大&北大
2024-11-09 15:49:43
Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B
2025-04-10 13:47:48
5G毫米波专网牌照,意义何在?
2025-09-10 08:29:27
481 文章
168809 浏览
24小时热文
更多

-
2025-09-10 09:31:39
-
2025-09-10 09:30:28
-
2025-09-10 08:33:06