11月26日,Hugging Face 发布了名为 SmolVLM 的AI视觉语言模型,该模型仅含20亿参数,专为设备端推理设计,具备体积小、速度快、内存高效的特点。SmolVLM 完全开源,所有模型检查点、数据集、训练配方及工具均在Apache 2.0许可证下发布。该模型有三种版本:SmolVLM-Base(适用于下游微调)、SmolVLM-Synthetic(基于合成数据微调)和SmolVLM-Instruct(可用于交互式应用)。SmolVLM通过优化架构,使用SmolLM2作为语言主干,并采用像素混洗策略,将视觉信息压缩率提高到9倍,从而显著降低内存占用。在多项基准测试中,SmolVLM的预填充吞吐量比Qwen2-VL快3.3至4.5倍,生成吞吐量快7.5至16倍。这一模型有望解决大型模型在普通设备上运行缓慢的问题。
原文链接
本文链接:https://kx.umi6.com/article/9345.html
转载请注明文章出处
相关推荐
.png)
换一换
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%
2025-05-29 15:35:22
新AI模型助力更准确预测心源性猝死风险
2025-07-05 16:01:14
Hugging Face 发布云端 AI 智能体,文字指令远程操控虚拟电脑
2025-05-08 11:27:26
416 文章
69289 浏览
24小时热文
更多

-
2025-07-20 08:01:35
-
2025-07-19 22:57:32
-
2025-07-19 21:58:20