苹果发布 FastVLM 视觉语言模型，为新型智能眼镜等穿戴设备铺路

2025-05-13 15:53:49

WisdomTrail

发布在

快讯

阅读：301

5月13日，苹果机器学习团队在GitHub开源了视觉语言模型FastVLM，提供0.5B、1.5B、7B三个版本。该模型基于苹果自研MLX框架开发，并借助LLaVA代码库训练，专为Apple Silicon设备优化。FastVLM的核心是FastViTHD混合视觉编码器，在保持精度的同时，实现高分辨率图像的近实时处理，所需计算量远低于同类模型。相比其他模型，FastVLM的体积更小、速度更快，尤其在移动端表现出色。苹果计划于2027年推出智能眼镜，FastVLM的技术将为其提供支持，助力实现设备的实时视觉交互。此外，FastVLM兼容主流AI开发语言，表明苹果正在构建端侧AI技术生态。

原文链接

本文链接：https://kx.umi6.com/article/18527.html

转载请注明文章出处

FastVLM