1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年7月11日,Hugging Face发布新一代最强30亿参数小模型SmolLM3,支持128k超长上下文、双推理模式(think/no_think)及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B,逼近40亿参数模型,并完全开源训练、对齐、架构与数据。团队通过优化架构(如GQA机制、NoPE编码)及三阶段训练策略提升模型能力,尤其在数学、编程和长文本任务中表现优异。此外,SmolLM3引入双模式指令模型构建方案,平衡推理与非推理性能,支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署,模型已在Hugging Face平台开放下载。

原文链接
本文链接:https://kx.umi6.com/article/21574.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌前 CEO 施密特:大多数国家最终可能使用中国的 AI 模型
2025-11-12 16:13:53
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!
2025-09-10 19:40:11
推理算力“正在耗尽”?百万Token时代来临 产业打响新一轮竞逐
2025-09-13 18:29:27
微博自研VibeThinker开源模型:训练成本仅7800美元
2025-11-18 15:27:09
开放全栈!超越π0,具身智能基础大模型迎来真·开源,开发者狂喜
2025-09-08 13:58:15
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
出圈一周年,DeepSeek的变与不变
2026-01-16 15:50:22
腾讯混元 0.5B、1.8B、4B、7B模型发布
2025-08-04 16:02:12
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3
2025-07-07 17:32:00
在史上最大规模WAIC中寻找DeepSeek
2025-07-28 09:10:59
杨植麟被梁文锋叫醒了!Kimi新模型发布即开源,1T参数全线SOTA
2025-07-12 13:50:53
中国AI开源模型下载量占比首次超过美国
2025-11-27 18:49:55
具身开源模型新王!千寻Spirit v1.5模型登顶 RoboChallenge,终结 Pi0.5领跑时代
2026-01-12 16:41:44
24小时热文
更多
扫一扫体验小程序