专用于法律的两个开源大模型，最高1410亿参数

2024-09-11 16:28:58

电子诗篇

发布在

快讯

阅读：125

法国国家高等教育计算中心与巴黎萨克雷大学的研究人员共同开源了专用于法律领域的大型模型SaulLM，该模型分为540亿参数和1410亿参数两种版本，以及基础模型和指令微调两种类型。SaulLM的独特之处在于其利用5400亿token的专业法律数据进行了预训练，涵盖了美国、欧洲及澳大利亚等地的法律文本，其输出内容的准确率显著高于同类模型。SaulLM基于Mixtral系列模型开发，通过引入专家混合（MoE）机制，显著提升了处理大规模数据的能力。 SaulLM-54B由32层构成，模型维度为4096，隐藏维度为14336；而SaulLM-141B则更为复杂，由56层构成，模型维度增至6144，隐藏维度达到16384。这两个模型均能支持长达32768和65536个token的上下文长度。在训练过程中，研究团队采用分段策略，包括持续预训练、专业法律指令遵循协议的实施以及模型输出与人类偏好的对齐。在专业法律基准测试平台LegalBench-Instruct和多基准平台MMLU上的综合评估显示，SaulLM在法律领域表现出色，优于GPT-4和Llama-3等其他模型，且通过继续预训练在法律领域的性能得到了显著提升。

原文链接

本文链接：https://kx.umi6.com/article/6171.html

转载请注明文章出处

MoE架构