Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

2025-01-26 21:16:45

灵感Phoenix

发布在

快讯

阅读：360

Hugging Face于1月26日发布了两款多模态模型SmolVLM-256M和SmolVLM-500M，其中SmolVLM-256M号称是世界上最小的视觉语言模型。这些模型基于80B参数模型蒸馏而成，在性能和资源需求间实现平衡。SmolVLM-256M采用SigLIP作为图片编码器，SmolLM2作为文本编码器，可在移动平台轻松运行，仅需不到1GB GPU显存即可完成单张图片推理。SmolVLM-500M则针对高性能场景设计，推理单张图片需1.23GB GPU显存，输出内容更精准。两款模型均采用Apache 2.0开源授权，提供基于transformer和WebGUI的示例程序，供开发者下载和使用。

原文链接

本文链接：https://kx.umi6.com/article/12213.html

转载请注明文章出处

Hugging Face