
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
9月1日,苹果公司在Hugging Face平台推出FastVLM视觉语言模型试用版,Mac用户现可体验“闪电级”视频字幕生成技术。FastVLM专为Apple Silicon芯片优化,速度较同类AI快85倍,模型体积仅为三分之一。新发布的FastVLM-0.5B轻量版可在浏览器中运行,支持本地数据处理,保护用户隐私。实测显示,在16GB M2 Pro MacBook Pro上,加载后可精准描述画面内容。该模型在可穿戴设备和辅助技术领域潜力巨大,或为未来智能眼镜等设备铺路。
原文链接
8月28日,SuperCLUE-VLM多模态视觉语言模型评测榜单发布,百度ERNIE-4.5-Turbo-VL以66.47分并列国内第一,仅次于Gemini-2.5-Pro和GPT-5(high)。本次评测覆盖15款国内外模型,围绕基础认知、视觉推理和应用三大维度展开,全面评估真实场景任务能力。分析指出,文心大模型在多模态领域表现突出,尤其在视觉推理与应用等高阶任务上进步显著,展现了中国在该领域的竞争潜力。此前,百度于6月30日开源文心4.5系列模型,其跨模态能力支持超100种语言交互,覆盖文档处理、视频管理等核心场景。依托全栈自研体系,飞桨文心已服务67万家企业,开发者超2185万。
原文链接
2025年8月8日,小红书开源了首个多模态大模型dots.vlm1,基于自研12亿参数视觉编码器和DeepSeek V3语言模型构建。该模型在视觉理解与推理任务中性能接近SOTA水平,可完成色盲图识别、数独解题、高考数学题解答等复杂任务,并能模仿李白诗风创作诗词。模型已在GitHub和HuggingFace平台开源,提供Demo供体验。这是小红书两个月内开源的第三款模型,体现了其技术自研的决心。团队强调多元智能研发方向,未来或将进一步结合图文生成能力与应用产品,推动更精准的内容理解和社区交互。
原文链接
8月7日,小红书hi lab宣布开源其dots模型家族中的首个视觉语言模型dots.vlm1。该模型基于12亿参数的视觉编码器和DeepSeek V3 LLM构建,经过大规模预训练与精调,在视觉感知和推理能力上达到接近行业领先水平(准SOTA)。这一开源项目有望推动多模态技术的发展,并为开发者提供更强大的工具支持。
原文链接
正文:8月6日,小红书hi lab正式发布并开源首个多模态AI大模型dots.vlm1。该模型基于DeepSeek V3 LLM构建,配备从零训练的12亿参数视觉编码器NaViT,并支持动态分辨率和多种感知能力优化。通过引入多样化合成数据及图文交错网页数据重写,dots.vlm1在视觉感知与推理方面接近SOTA水平,在MMMU、MathVision等基准测试中表现优异,同时具备一定的文本推理能力。尽管部分细分任务仍有提升空间,其综合性能为开源多模态模型树立了新标杆。项目已开源。
原文链接
标题:首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
视觉语言模型(VLM)正在从「感知」迈向「认知」的关键阶段。OpenAI的o3系列通过「图像思维」赋予模型标注视觉区域的能力,展现了多模态交互的新潜力。然而,现有VLM大多依赖文本token间接处理视觉信息,难以应对...
原文链接
5月13日,苹果机器学习团队在GitHub开源了视觉语言模型FastVLM,提供0.5B、1.5B、7B三个版本。该模型基于苹果自研MLX框架开发,并借助LLaVA代码库训练,专为Apple Silicon设备优化。FastVLM的核心是FastViTHD混合视觉编码器,在保持精度的同时,实现高分辨率图像的近实时处理,所需计算量远低于同类模型。相比其他模型,FastVLM的体积更小、速度更快,尤其在移动端表现出色。苹果计划于2027年推出智能眼镜,FastVLM的技术将为其提供支持,助力实现设备的实时视觉交互。此外,FastVLM兼容主流AI开发语言,表明苹果正在构建端侧AI技术生态。
原文链接
Hugging Face于1月26日发布了两款多模态模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M号称是世界上最小的视觉语言模型。这些模型基于80B参数模型蒸馏而成,在性能和资源需求间实现平衡。SmolVLM-256M采用SigLIP作为图片编码器,SmolLM2作为文本编码器,可在移动平台轻松运行,仅需不到1GB GPU显存即可完成单张图片推理。SmolVLM-500M则针对高性能场景设计,推理单张图片需1.23GB GPU显存,输出内容更精准。两款模型均采用Apache 2.0开源授权,提供基于transformer和WebGUI的示例程序,供开发者下载和使用。
原文链接
标题:游戏bug帮大模型学物理!准确率超GPT4近4个百分点
融合物理知识的大型视频语言模型PhysVLM开源了!它不仅在PhysGame基准上展现出最先进的性能,还在通用视频理解基准Video-MME和VCG上表现出色。
在以前的研究中,让AI像人类儿童一样通过观察世界理解基本物理常识是一个主要挑...
原文链接
11月26日,Hugging Face 发布了名为 SmolVLM 的AI视觉语言模型,该模型仅含20亿参数,专为设备端推理设计,具备体积小、速度快、内存高效的特点。SmolVLM 完全开源,所有模型检查点、数据集、训练配方及工具均在Apache 2.0许可证下发布。该模型有三种版本:SmolVLM-Base(适用于下游微调)、SmolVLM-Synthetic(基于合成数据微调)和SmolVLM-Instruct(可用于交互式应用)。SmolVLM通过优化架构,使用SmolLM2作为语言主干,并采用像素混洗策略,将视觉信息压缩率提高到9倍,从而显著降低内存占用。在多项基准测试中,SmolVLM的预填充吞吐量比Qwen2-VL快3.3至4.5倍,生成吞吐量快7.5至16倍。这一模型有望解决大型模型在普通设备上运行缓慢的问题。
原文链接
加载更多

暂无内容