1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年7月11日,Hugging Face发布新一代最强30亿参数小模型SmolLM3,支持128k超长上下文、双推理模式(think/no_think)及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B,逼近40亿参数模型,并完全开源训练、对齐、架构与数据。团队通过优化架构(如GQA机制、NoPE编码)及三阶段训练策略提升模型能力,尤其在数学、编程和长文本任务中表现优异。此外,SmolLM3引入双模式指令模型构建方案,平衡推理与非推理性能,支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署,模型已在Hugging Face平台开放下载。

原文链接
本文链接:https://kx.umi6.com/article/21574.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
可能是目前效果最好的开源生图模型,混元生图3.0来了
2025-09-30 21:34:24
华为盘古 Ultra-MoE-718B-V1.1 正式开源并开放下载,模型权重与技术细节全面公开
2025-10-16 17:57:55
宇树:开源机器人世界大模型!
2025-09-16 13:11:33
阿里开源全模态大模型Qwen3-Omni 可像人类一样听说写
2025-09-24 16:50:21
OpenAI开源两款gpt-oss系列推理大模型 能力接近o3和o4-mini
2025-08-06 11:30:27
刚刚,OpenAI开源2个推理模型:笔记本/手机就能跑,性能接近o4-mini
2025-08-06 06:22:19
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
百元级硬件流畅运行百亿参数大模型!上交&本智激活开源端侧原生大模型
2025-07-27 18:00:02
华为盘古718B模型最新成绩:开源第二
2025-09-29 13:08:42
大模型年终观察,如何定义2025年的「好模型」?
2025-12-22 21:00:44
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
下载超 10 亿、衍生模型破 20 万,阿里千问刷新全球开源模型纪录
2026-01-21 16:18:32
谷歌DeepMind高管公开邀请千问团队入职
2026-03-05 15:31:45
24小时热文
更多
扫一扫体验小程序