SmolVLM-256M - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

Hugging Face于1月26日发布了两款多模态模型SmolVLM-256M和SmolVLM-500M，其中SmolVLM-256M号称是世界上最小的视觉语言模型。这些模型基于80B参数模型蒸馏而成，在性能和资源需求间实现平衡。SmolVLM-256M采用SigLIP作为图片编码器，SmolLM2作为文本编码器，可在移动平台轻松运行，仅需不到1GB GPU显存即可完成单张图片推理。SmolVLM-500M则针对高性能场景设计，推理单张图片需1.23GB GPU显存，输出内容更精准。两款模型均采用Apache 2.0开源授权，提供基于transformer和WebGUI的示例程序，供开发者下载和使用。

原文链接