2025年7月11日,Hugging Face发布新一代最强30亿参数小模型SmolLM3,支持128k超长上下文、双推理模式(think/no_think)及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B,逼近40亿参数模型,并完全开源训练、对齐、架构与数据。团队通过优化架构(如GQA机制、NoPE编码)及三阶段训练策略提升模型能力,尤其在数学、编程和长文本任务中表现优异。此外,SmolLM3引入双模式指令模型构建方案,平衡推理与非推理性能,支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署,模型已在Hugging Face平台开放下载。
原文链接
本文链接:https://kx.umi6.com/article/21574.html
转载请注明文章出处
相关推荐
换一换
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
2025-07-18 17:42:26
清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
2026-02-06 20:12:11
阿里千问3推理模型更新 比肩Gemini-2.5 pro、o4-mini
2025-07-25 19:28:30
开源模型三城记
2025-07-30 10:43:17
大模型年终观察,如何定义2025年的「好模型」?
2025-12-22 21:00:44
B站开源动漫视频生成模型 AniSora V3 版,速度更快、质量更高
2025-07-07 08:25:15
谷歌DeepMind高管公开邀请千问团队入职
2026-03-05 15:31:45
宇树:开源机器人世界大模型!
2025-09-16 13:11:33
推理算力“正在耗尽”?百万Token时代来临 产业打响新一轮竞逐
2025-09-13 18:29:27
消息称智谱 GLM-4.5 今晚开源新模型,知情人士回应确有其事
2025-07-28 16:20:04
腾讯混元 0.5B、1.8B、4B、7B模型发布
2025-08-04 16:02:12
OpenAI 推出两款开源模型 gpt-oss-120b / 20b,性能逼近 o4-mini/o3-mini
2025-08-06 08:23:05
DeepSeek等开源模型,更“浪费”token吗?
2025-10-11 10:17:13
762 文章
522729 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18