苹果在小模型领域掀起风暴,发布了性能强大的DCLM(包含70亿参数版本)并实现了全开源,超越了Mistral-7B的性能,且性能接近Llama 3、Gemma。DCLM的开源模式,与以往科技巨头的闭源或部分开源策略形成鲜明对比,赢得了用户好评。DCLM还预告了后续将上线模型中间检查点和优化器状态。 HuggingFace平台上已发布DCLM-7B模型的全部权重,该模型采用decoder-only架构,基于PyTorch和OpenLM框架进行预训练,数据集来自总量240T的DCLM,经过筛选后用于训练。DCLM在性能上与Mistral-7B、Gemma等模型相比具有竞争力,特别是在核心准确率和扩展准确率指标上达到最优。DCLM-7B在5-shot MMLU任务中的准确率提高了6.6个百分点,且训练所需的计算量减少了40%。 DCLM系列模型的开源发布,标志着LLM开源社区可能迎来新的发展春天。DCLM-1B版本也在性能上优于HuggingFace的SmolLM,尤其是在数学推理任务GSM8K上的性能大幅提升。这一系列发布不仅展示了苹果在AI领域的技术实力,同时也推动了行业内的创新和合作,预示着小模型领域将有更多值得关注的发展动态。
原文链接
本文链接:https://kx.umi6.com/article/6130.html
转载请注明文章出处
相关推荐
.png)
换一换
Meta 高管回应 OpenAI CEO 奥尔特曼“1 亿美元挖角”指控:夸大其词
2025-06-29 18:33:51
OpenAI最新点名的中国竞争对手:竟不是DeepSeek、而是智谱!
2025-06-30 17:45:07
OpenAI会杀死Manus们吗?
2025-07-20 08:01:35
443 文章
76999 浏览
24小时热文
更多

-
2025-07-20 13:03:48
-
2025-07-20 12:02:31
-
2025-07-20 10:03:13