Hugging Face于1月26日发布了两款多模态模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M号称是世界上最小的视觉语言模型。这些模型基于80B参数模型蒸馏而成,在性能和资源需求间实现平衡。SmolVLM-256M采用SigLIP作为图片编码器,SmolLM2作为文本编码器,可在移动平台轻松运行,仅需不到1GB GPU显存即可完成单张图片推理。SmolVLM-500M则针对高性能场景设计,推理单张图片需1.23GB GPU显存,输出内容更精准。两款模型均采用Apache 2.0开源授权,提供基于transformer和WebGUI的示例程序,供开发者下载和使用。
原文链接
本文链接:https://kx.umi6.com/article/12213.html
转载请注明文章出处
相关推荐
.png)
换一换
中国AIGC产品全景图谱全面征集|量子位智库
2025-02-08 17:26:03
礼来与OpenAI合作开发新型抗菌药物
2024-06-26 03:27:53
AI功能落地可穿戴设备,端侧算力仍是最大的瓶颈
2024-06-07 21:47:29
452 文章
78309 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21