2025年7月11日,Hugging Face发布新一代最强30亿参数小模型SmolLM3,支持128k超长上下文、双推理模式(think/no_think)及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B,逼近40亿参数模型,并完全开源训练、对齐、架构与数据。团队通过优化架构(如GQA机制、NoPE编码)及三阶段训练策略提升模型能力,尤其在数学、编程和长文本任务中表现优异。此外,SmolLM3引入双模式指令模型构建方案,平衡推理与非推理性能,支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署,模型已在Hugging Face平台开放下载。
原文链接
本文链接:https://kx.umi6.com/article/21574.html
转载请注明文章出处
相关推荐
.png)
换一换
英国拟推动用人工智能减轻教师工作量
2024-08-29 18:08:50
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
2025-06-20 17:00:54
AI斗图神器:普通视频秒变meme,手绘动画轻松融入,了解一下?
2024-08-15 18:44:30
492 文章
72211 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21