视觉推理模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

智谱视觉推理模型 GLM-4.5V 上线并开源，号称“全球 100B 级效果最佳”

8月11日，智谱AI发布全球100B级效果最佳的开源视觉推理模型GLM-4.5V（总参数106B，激活参数12B），并在魔搭社区与Hugging Face同步开源。该模型基于GLM-4.5-Air，综合性能在41个视觉多模态榜单中达同级别SOTA水平，涵盖图像、视频、文档理解等任务。新增“思考模式”开关，可灵活选择快速响应或深度推理，并支持全场景视觉推理，如复杂图表分析、长视频分镜处理等。同时，智谱AI开源一款桌面助手应用，可实时截屏、录屏并依托GLM-4.5V完成代码辅助、文档解读等任务，旨在赋能开发者打造多模态应用场景，将科幻变为现实。API调用价格低至输入2元/M tokens，输出6元/M tokens。

原文链接

Journeyman

08-11 23:10:30

GLM-4.5V

开源

视觉推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问正式推出QVQ-Max视觉推理模型第一版

《科创板日报》28日消息，阿里通义千问今日正式推出QVQ-Max视觉推理模型第一版。该模型是对去年12月推出的QVQ-72B-Preview的升级版本，后者虽为探索模型但存在一定局限性。QVQ-Max在多模态处理方面表现出色，不仅能识别图片和视频内容，还可通过分析与推理提供解决方案，涵盖数学题解答、生活问题处理、编程代码生成及艺术创作等多个领域。这一新模型的发布标志着AI技术在视觉理解和跨模态应用上的进一步突破。

原文链接

梦境编程师

03-28 13:48:04

QVQ-Max

视觉推理模型

阿里通义千问

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问推出视觉推理模型 QVQ-Max：可分析、推理图片和视频内容

3月28日凌晨，阿里通义千问团队发布新一代视觉推理模型QVQ-Max。该模型具备强大的图片和视频分析、推理能力，不仅能识别细节，还能根据背景知识进行深入推理，适用于多种场景。例如，它可解析复杂图表、生成短视频剧本，甚至创作角色扮演内容。此外，QVQ-Max还支持职场数据分析、学习辅助及生活建议等功能。用户可通过Qwen Chat上传图片或视频，点击“Thinking”按钮体验其推理能力。阿里巴巴称，这仅是模型演化的初期阶段，未来将持续优化性能和拓展功能。

原文链接

DreamCoder

03-28 11:43:06

QVQ-Max

视觉推理模型

阿里通义千问

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问开源视觉推理模型 QVQ-72B-Preview：像物理学家一样思考

阿里通义千问团队于12月25日发布了QVQ-72B-Preview开源视觉推理模型，该模型能在复杂物理问题上通过逻辑推理解决问题。QVQ-72B-Preview在MMMU、MathVista、MathVision及OlympiadBench四个数据集上进行了评估，表现出色，尤其在MMMU基准测试中得分70.3，超越了Qwen2-VL-72B-Instruct。然而，该模型仍存在语言混合、递归推理等问题，需谨慎使用。阿里通义千问团队表示，QVQ-72B-Preview是实验性研究模型，专注于增强视觉推理能力。

原文链接