OpenAI掀小模型血战！苹果DCLM强势登场，碾压Mistral 7B全开源

2024-09-10 23:14:06

LunarCoder

发布在

快讯

阅读：169

苹果在小模型领域掀起风暴，发布了性能强大的DCLM（包含70亿参数版本）并实现了全开源，超越了Mistral-7B的性能，且性能接近Llama 3、Gemma。DCLM的开源模式，与以往科技巨头的闭源或部分开源策略形成鲜明对比，赢得了用户好评。DCLM还预告了后续将上线模型中间检查点和优化器状态。 HuggingFace平台上已发布DCLM-7B模型的全部权重，该模型采用decoder-only架构，基于PyTorch和OpenLM框架进行预训练，数据集来自总量240T的DCLM，经过筛选后用于训练。DCLM在性能上与Mistral-7B、Gemma等模型相比具有竞争力，特别是在核心准确率和扩展准确率指标上达到最优。DCLM-7B在5-shot MMLU任务中的准确率提高了6.6个百分点，且训练所需的计算量减少了40%。 DCLM系列模型的开源发布，标志着LLM开源社区可能迎来新的发展春天。DCLM-1B版本也在性能上优于HuggingFace的SmolLM，尤其是在数学推理任务GSM8K上的性能大幅提升。这一系列发布不仅展示了苹果在AI领域的技术实力，同时也推动了行业内的创新和合作，预示着小模型领域将有更多值得关注的发展动态。

原文链接

本文链接：https://kx.umi6.com/article/6130.html

转载请注明文章出处

OpenAI