2025年7月11日,Hugging Face发布新一代最强30亿参数小模型SmolLM3,支持128k超长上下文、双推理模式(think/no_think)及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B,逼近40亿参数模型,并完全开源训练、对齐、架构与数据。团队通过优化架构(如GQA机制、NoPE编码)及三阶段训练策略提升模型能力,尤其在数学、编程和长文本任务中表现优异。此外,SmolLM3引入双模式指令模型构建方案,平衡推理与非推理性能,支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署,模型已在Hugging Face平台开放下载。
原文链接
本文链接:https://kx.umi6.com/article/21574.html
转载请注明文章出处
相关推荐
.png)
换一换
腾讯混元 0.5B、1.8B、4B、7B模型发布
2025-08-04 16:02:12
超越 OpenAI 医疗能力全球登顶,百川发布开源 AI 大模型 Baichuan-M2
2025-08-11 14:01:35
开源模型三城记
2025-07-30 10:43:17
免费的「网页版Cursor」!新版DeepSeek-V3加持,秒秒钟编出APP
2025-04-01 13:26:23
超越 DeepSeek-R1,英伟达开源模型 Llama-Nemotron 登顶
2025-05-06 17:56:45
Meta发布最强开源Llama 4,超越DeepSeek V3
2025-04-06 10:58:02
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
2025-04-06 10:54:42
阿里千问QwQ-32B获海外青睐:多家海外AI平台已接入
2025-03-13 12:19:26
多家地方算力平台接入阿里通义千问QwQ-32B
2025-03-18 17:55:18
刚刚,OpenAI开源2个推理模型:笔记本/手机就能跑,性能接近o4-mini
2025-08-06 06:22:19
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
2025-07-18 17:42:26
腾讯混元 0.5B、1.8B、4B、7B 模型开源发布,消费级显卡即可运行
2025-08-04 15:58:47
DeepSeek-V3低调发布后 业内震惊之余再次怀疑硅谷模式
2025-03-25 12:55:22
551 文章
186332 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08