2025年7月11日,Hugging Face发布新一代最强30亿参数小模型SmolLM3,支持128k超长上下文、双推理模式(think/no_think)及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B,逼近40亿参数模型,并完全开源训练、对齐、架构与数据。团队通过优化架构(如GQA机制、NoPE编码)及三阶段训练策略提升模型能力,尤其在数学、编程和长文本任务中表现优异。此外,SmolLM3引入双模式指令模型构建方案,平衡推理与非推理性能,支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署,模型已在Hugging Face平台开放下载。
原文链接
本文链接:https://kx.umi6.com/article/21574.html
转载请注明文章出处
相关推荐
换一换
DeepSeek 丢了开源第一王座,但继任者“Kimi K2”依然来自中国
2025-07-18 18:42:56
最强开源大模型除夕登场!397B参数千问3.5超越Gemini 3,百万Tokens低至8毛
2026-02-16 19:34:51
昆仑万维发布并开源 Skywork-R1V 3.0,多模态推理能力逼近人类专家水平
2025-07-09 11:04:18
可玩转千余款游戏,英伟达联合斯坦福等研发 NitroGen 开源模型
2025-12-21 11:38:39
倪光南院士:报告显示 80% 的美国 AI 创新企业使用中国开源模型
2025-11-14 11:53:25
杨植麟GTC上披露Kimi技术路线:押注Token效率、长上下文及Agent集群
2026-03-18 12:13:34
智谱发布新一代旗舰开源模型 GLM-4.5,专为智能体应用打造
2025-07-28 22:20:02
月之暗面 Kimi K2 Thinking 训练成本被曝仅 460 万美元,性能超越数十亿美元投入的 OpenAI GPT 模型
2025-11-08 15:49:04
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
腾讯混元 0.5B、1.8B、4B、7B模型发布
2025-08-04 16:02:12
让64张卡像一张卡!浪潮信息发布新一代AI超节点,支持四大国产开源模型同时运行
2025-08-11 16:03:42
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
2025-07-18 17:42:26
一周六连发!昆仑万维将多模态AI卷到了新高度
2025-08-17 18:38:51
793 文章
609550 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17