1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
标题:首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」 视觉语言模型(VLM)正在从「感知」迈向「认知」的关键阶段。OpenAI的o3系列通过「图像思维」赋予模型标注视觉区域的能力,展现了多模态交互的新潜力。然而,现有VLM大多依赖文本token间接处理视觉信息,难以应对...
灵感Phoenix
06-09 18:31:59
VLM
像素空间推理
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路
5月13日,苹果机器学习团队在GitHub开源了视觉语言模型FastVLM,提供0.5B、1.5B、7B三个版本。该模型基于苹果自研MLX框架开发,并借助LLaVA代码库训练,专为Apple Silicon设备优化。FastVLM的核心是FastViTHD混合视觉编码器,在保持精度的同时,实现高分辨率图像的近实时处理,所需计算量远低于同类模型。相比其他模型,FastVLM的体积更小、速度更快,尤其在移动端表现出色。苹果计划于2027年推出智能眼镜,FastVLM的技术将为其提供支持,助力实现设备的实时视觉交互。此外,FastVLM兼容主流AI开发语言,表明苹果正在构建端侧AI技术生态。
WisdomTrail
05-13 15:53:49
FastVLM
智能眼镜
苹果
分享至
打开微信扫一扫
内容投诉
生成图片
Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
Hugging Face于1月26日发布了两款多模态模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M号称是世界上最小的视觉语言模型。这些模型基于80B参数模型蒸馏而成,在性能和资源需求间实现平衡。SmolVLM-256M采用SigLIP作为图片编码器,SmolLM2作为文本编码器,可在移动平台轻松运行,仅需不到1GB GPU显存即可完成单张图片推理。SmolVLM-500M则针对高性能场景设计,推理单张图片需1.23GB GPU显存,输出内容更精准。两款模型均采用Apache 2.0开源授权,提供基于transformer和WebGUI的示例程序,供开发者下载和使用。
灵感Phoenix
01-26 21:16:45
Hugging Face
SmolVLM-256M
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
游戏bug帮大模型学物理!准确率超GPT4o近4个百分点
标题:游戏bug帮大模型学物理!准确率超GPT4近4个百分点 融合物理知识的大型视频语言模型PhysVLM开源了!它不仅在PhysGame基准上展现出最先进的性能,还在通用视频理解基准Video-MME和VCG上表现出色。 在以前的研究中,让AI像人类儿童一样通过观察世界理解基本物理常识是一个主要挑...
智能维度跳跃
12-06 15:25:14
PhysGame
PhysVLM
游戏bug
分享至
打开微信扫一扫
内容投诉
生成图片
Hugging Face 发布 SmolVLM 开源 AI 模型:20 亿参数,用于端侧推理,体积小、速度快
11月26日,Hugging Face 发布了名为 SmolVLM 的AI视觉语言模型,该模型仅含20亿参数,专为设备端推理设计,具备体积小、速度快、内存高效的特点。SmolVLM 完全开源,所有模型检查点、数据集、训练配方及工具均在Apache 2.0许可证下发布。该模型有三种版本:SmolVLM-Base(适用于下游微调)、SmolVLM-Synthetic(基于合成数据微调)和SmolVLM-Instruct(可用于交互式应用)。SmolVLM通过优化架构,使用SmolLM2作为语言主干,并采用像素混洗策略,将视觉信息压缩率提高到9倍,从而显著降低内存占用。在多项基准测试中,SmolVLM的预填充吞吐量比Qwen2-VL快3.3至4.5倍,生成吞吐量快7.5至16倍。这一模型有望解决大型模型在普通设备上运行缓慢的问题。
量子黑客
11-27 13:53:52
AI模型
Hugging Face
SmolVLM
分享至
打开微信扫一扫
内容投诉
生成图片
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
标题:多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案 一个5月份完成训练的大模型无法回答关于《黑神话·悟空》的问题,因为它缺乏相关训练数据。频繁更新大模型参数不切实际,但现实世界的信息是实时产生的。为此,上海人工智能实验室、北京理工大学、浙江大学和香港大学联合提出即插即用的SearchL...
元界筑梦师
11-11 16:27:28
SearchLVLMs
即插即用
多模态模型
分享至
打开微信扫一扫
内容投诉
生成图片
英伟达 NVLM 1.0 引领多模态 AI 变革:媲美 GPT-4o,不牺牲性能平衡文本和图像处理难题
英伟达(Nvidia)于9月20日发布论文,介绍其最新研发的多模态大语言模型系列NVLM 1.0。这一系列模型包括NVLM-D、NVLM-X和NVLM-H三种架构,旨在解决文本和图像处理之间的平衡难题。NVLM 1.0在训练过程中加入高质量纯文本监督微调数据,使其在视觉语言任务中表现出色,同时保持甚...
梦境编程师
09-21 13:14:42
多模态 AI 变革
文本和图像处理
英伟达 NVLM 1.0
分享至
打开微信扫一扫
内容投诉
生成图片
智谱 AI 开源视频理解模型 CogVLM2-Video,可回答时间相关问题
7月12日,智谱AI宣布开源全新视频理解模型CogVLM2-Video,专注于解决传统模型在处理时间相关问题上的不足。通过视觉模型自动生成大量时间相关视频问答数据,该模型利用多帧视频和时间戳作为输入,不仅提升视频理解性能,还擅长视频字幕生成和时间定位。现已在GitHub开源,详情和在线试用请访问GitHub和相关网站。
元界筑梦师
07-12 16:04:38
CogVLM2-Video
时间相关问题
视频理解模型
分享至
打开微信扫一扫
内容投诉
生成图片
一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实
新型开源数据集MMDU(Multi-Turn Multi-Image Dialog Understanding)近日发布,让AI聊天更接近现实。这个数据集支持多轮对话(最多27轮)和同时输入20张图像,评估模型在处理长上下文和复杂交互场景中的能力。MMDU通过18k文本+图像tokens,提供了开放式评估,挑战现有LVLMs在多图多轮对话中的表现。研究团队已将其成果置于HuggingFace 6月18日Daily Papers榜首,引发全球关注。通过与GPT-4o结合,MMDU有望缩小开源与闭源模型的差距,并提升LVLMs在长文本理解和图文对话任务中的性能。
AI创想团
06-29 14:52:42
LVLMs
MMDU
多图多轮对话
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序