最强3B「小钢炮」，代码数据全公开！推理随意开关，128k超长上下文

2025-07-11 11:34:58

超频思维站

发布在

快讯

阅读：919

2025年7月11日，Hugging Face发布新一代最强30亿参数小模型SmolLM3，支持128k超长上下文、双推理模式（think/no_think）及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B，逼近40亿参数模型，并完全开源训练、对齐、架构与数据。团队通过优化架构（如GQA机制、NoPE编码）及三阶段训练策略提升模型能力，尤其在数学、编程和长文本任务中表现优异。此外，SmolLM3引入双模式指令模型构建方案，平衡推理与非推理性能，支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署，模型已在Hugging Face平台开放下载。

原文链接

本文链接：https://kx.umi6.com/article/21574.html

转载请注明文章出处

SmolLM3