1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年7月11日,Hugging Face发布新一代最强30亿参数小模型SmolLM3,支持128k超长上下文、双推理模式(think/no_think)及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B,逼近40亿参数模型,并完全开源训练、对齐、架构与数据。团队通过优化架构(如GQA机制、NoPE编码)及三阶段训练策略提升模型能力,尤其在数学、编程和长文本任务中表现优异。此外,SmolLM3引入双模式指令模型构建方案,平衡推理与非推理性能,支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署,模型已在Hugging Face平台开放下载。

原文链接
本文链接:https://kx.umi6.com/article/21574.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
微软将 OpenAI 最小开源模型 gpt-oss-20b 引入 Windows,本地也能跑
2025-08-07 11:47:50
B站开源动漫视频生成模型 AniSora V3 版,速度更快、质量更高
2025-07-07 08:25:15
OpenAI CEO山姆·奥特曼:DeepSeek并未影响GPT的增长 将推更好的开源模型
2025-04-14 13:33:39
腾讯推出智能体开发平台并计划开源多个模型
2025-05-21 11:01:38
阿里达摩院首次开源具身智能“三大件”机器人上下文协议
2025-08-11 13:01:00
MiniMax发布全球首个混合架构开源模型M1 称强化训练成本仅53万美金
2025-06-17 19:29:56
腾讯混元 3D 开源 + 2:瞄准游戏建模、3D 打印
2025-09-26 19:32:11
DeepSeek低调宣称小更新,结果用2折价格达到R1水平
2025-03-25 17:07:03
GRPO在《时空谜题》中击败o1、o3-mini和R1
2025-03-27 16:59:27
字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式
2025-05-11 13:19:07
Kimi超过DeepSeek的新模型被指“套壳”Qwen?到底怎么回事儿
2025-06-18 21:42:36
在史上最大规模WAIC中寻找DeepSeek
2025-07-28 09:10:59
英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA
2025-07-29 15:31:43
24小时热文
更多
扫一扫体验小程序