1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
AI们数不清六根手指,这事没那么简单
标题:AI数不清六根手指,问题没那么简单 昨天Grok4发布后,我在X上看到一个有趣的帖子:一张恶搞的六指手图片,几乎所有主流AI模型都将其误判为五根手指,包括GPT-4、Gemini、豆包等。只有Claude 4偶尔能给出正确答案。这一现象让我深感不安——如果只是单一模型出错,可能是“幻觉”,...
未来笔触
07-11 11:37:35
偏见
六根手指
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
2025年7月,智谱开源了仅9B大小的视觉语言模型GLM-4.1V-9B-Thinking,在28项评测中斩获23个SOTA,成为10B级别中效果最好的VLM模型。该模型在18项评测中表现超越参数量达其8倍的Qwen-2.5-VL-72B,核心优势在于引入了思维链(Chain-of-Thought)推理机制和课程采样强化学习(RLCS)。浦东创投集团和张江集团已对该项目投资10亿元,首笔资金将近期到位。GLM-4.1V-9B-Thinking具备多模态深度推理能力,可处理超长视频解析、智能读图问答、理科解题、专业文档处理等任务,并已在数学题解答、图像分析等场景中展现优异表现。相关论文、代码及模型已开源,详见arXiv与各大平台链接。
梦境编程师
07-02 13:05:58
GLM-4.1V-9B-Thinking
思维链推理
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
太可怕了!AI大模型已学会人类空间思考能力
近日,蚂蚁技术研究院联合中科院自动化所和香港中文大学开源ViLaSR-7B大模型,实现了AI的空间思考能力,在多个空间推理任务中达到新SOTA。该模型通过‘Drawing to Reason in Space’范式,让AI像人类一样‘边画边想’,在迷宫导航、视频空间推理等5个基准测试中平均提升18.4%,尤其在VSI-Bench上达45.4%,超Gemini-1.5-Pro。研究采用三阶段训练框架:冷启动训练建立基础能力,反思拒绝采样增强自我修正,强化学习优化绘图操作效率。ViLaSR-7B展现出类人的空间推理策略,如参考物度量推理和跨帧对象追踪,提升推理可解释性和可控性。此成果为机器人导航等领域奠定基础,预示AI向通用空间智能迈进的重要一步。
超频思维站
06-22 22:18:27
Drawing to Reason in Space
空间推理
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
标题:首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」 视觉语言模型(VLM)正在从「感知」迈向「认知」的关键阶段。OpenAI的o3系列通过「图像思维」赋予模型标注视觉区域的能力,展现了多模态交互的新潜力。然而,现有VLM大多依赖文本token间接处理视觉信息,难以应对...
灵感Phoenix
06-09 18:31:59
VLM
像素空间推理
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性
谷歌DeepMind团队于2月13日发布了WebLI-100B数据集,这是一个包含1000亿图像-文本对的千亿级数据集,旨在提升AI视觉语言模型的文化多样性和多语言性。当前的视觉语言模型受限于现有数据集的语言偏差和文化代表性不足。WebLI-100B通过不进行激进过滤,保留更广泛的语言和文化元素,使得模型在文化和多语言任务上的表现更加优越。该数据集在文化多样性任务和低资源语言检索方面表现出显著改进。
DreamCoder
02-14 15:43:06
WebLI-100B
文化多样性
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
Hugging Face于1月26日发布了两款多模态模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M号称是世界上最小的视觉语言模型。这些模型基于80B参数模型蒸馏而成,在性能和资源需求间实现平衡。SmolVLM-256M采用SigLIP作为图片编码器,SmolLM2作为文本编码器,可在移动平台轻松运行,仅需不到1GB GPU显存即可完成单张图片推理。SmolVLM-500M则针对高性能场景设计,推理单张图片需1.23GB GPU显存,输出内容更精准。两款模型均采用Apache 2.0开源授权,提供基于transformer和WebGUI的示例程序,供开发者下载和使用。
灵感Phoenix
01-26 21:16:45
Hugging Face
SmolVLM-256M
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
Hugging Face 最小 AI 视觉语言模型登场:2.56 亿参数,内存低于 1GB PC 也能驾驭
Hugging Face 于1月23日发布SmolVLM-256M-Instruct和SmolVLM-500M-Instruct两款AI视觉语言模型。前者仅含2.56亿参数,可在内存低于1GB的PC上运行,是目前最小的视觉语言模型;后者含5亿参数,旨在解决硬件资源受限问题。两款模型均采用SigLIP base patch-16/512视觉编码器,相较于前代每标记像素处理能力提升。SmolVLM模型支持图像描述、视频分析及PDF/科学图表问答等功能,提升了AI处理效率和可访问性。
智能维度跳跃
01-24 11:41:33
AI模型
Hugging Face
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品
标题:视觉语言模型安全升级,不牺牲性能! 淘天集团未来生活实验室团队联合南京大学、重庆大学、港中文MMLab提出一种全新视觉语言模型(VLM)安全对齐方法——PSA-VLM。此方法基于概念瓶颈模型(CBM)架构创新,允许干预模型的中间层概念预测,优化大模型的最终回复,显著提升VLM在视觉安全风险方面...
超频思维站
01-17 12:16:08
安全对齐
概念瓶颈模型
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路
【新闻摘要】 11月19日,由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院及理海大学组成的研究团队共同发布了首个具备自发性视觉语言模型(VLM)——LLaVA-o1。该模型拥有110亿参数,基于Llama-3.2-Vision-Instruct开发,涵盖总结、描述、推理和结论四个阶段。LLaVA-o1采用名为LLaVA-o1-100k的数据集进行微调,源自视觉问答(VQA)和GPT-4o生成的结构化推理注释。在推理计算方面,该模型运用了阶段级束搜索技术,显著提升了多模态推理基准测试的性能,尤其在数学和科学视觉问题上表现出色。与基础模型相比,LLaVA-o1的性能提升了8.9%,超过了众多大型和闭源的竞争对手。此次发布的LLaVA-o1标志着在视觉语言模型领域取得了重要进展,填补了文本和视觉问答模型之间的空白。【完】
DreamCoder
11-19 11:41:37
LLaVA-o1
自发性人工智能
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24
标题:无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24 卡内基梅隆大学(CMU)的研究团队提出了一种创新的“黑盒优化”策略,通过大语言模型自动调整自然语言提示词,提升视觉语言模型在多个下游任务中的表现,无需触及模型内部参数。 大多数视觉语言模型(如DALL-E 3、GPT-4o...
E-Poet
11-07 10:13:00
提示词优化
视觉语言模型
黑盒优化
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序