综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
《科创板日报》28日消息,阿里通义千问今日正式推出QVQ-Max视觉推理模型第一版。该模型是对去年12月推出的QVQ-72B-Preview的升级版本,后者虽为探索模型但存在一定局限性。QVQ-Max在多模态处理方面表现出色,不仅能识别图片和视频内容,还可通过分析与推理提供解决方案,涵盖数学题解答、生活问题处理、编程代码生成及艺术创作等多个领域。这一新模型的发布标志着AI技术在视觉理解和跨模态应用上的进一步突破。
原文链接
AI大模型看手相!图片视频加持深度思考,阿里QVQ-Max“神了神了”
金磊 | 发自 凹非寺
量子位 | 公众号 QbitAI
阿里推出一款有趣的大模型——QVQ-Max,首款视觉推理模型,可对任意图像或视频进行深度思考。
趣味手相分析
上传手掌图片并点击“Thinking”,QVQ-Max能...
原文链接
3月28日凌晨,阿里通义千问团队发布新一代视觉推理模型QVQ-Max。该模型具备强大的图片和视频分析、推理能力,不仅能识别细节,还能根据背景知识进行深入推理,适用于多种场景。例如,它可解析复杂图表、生成短视频剧本,甚至创作角色扮演内容。此外,QVQ-Max还支持职场数据分析、学习辅助及生活建议等功能。用户可通过Qwen Chat上传图片或视频,点击“Thinking”按钮体验其推理能力。阿里巴巴称,这仅是模型演化的初期阶段,未来将持续优化性能和拓展功能。
原文链接
《科创板日报》报道,阿里云通义千问发布首个开源多模态推理模型QVQ-72B-Preview。该模型具备视觉理解和推理能力,能在数学、物理、科学等领域解决复杂问题。在MathVista测试中,QVQ得分超OpenAI o1;在MathVison评测中,QVQ表现优于Claude3.5及GPT4o。此消息于25日发布。
原文链接
阿里通义千问团队于12月25日发布了QVQ-72B-Preview开源视觉推理模型,该模型能在复杂物理问题上通过逻辑推理解决问题。QVQ-72B-Preview在MMMU、MathVista、MathVision及OlympiadBench四个数据集上进行了评估,表现出色,尤其在MMMU基准测试中得分70.3,超越了Qwen2-VL-72B-Instruct。然而,该模型仍存在语言混合、递归推理等问题,需谨慎使用。阿里通义千问团队表示,QVQ-72B-Preview是实验性研究模型,专注于增强视觉推理能力。
原文链接
加载更多
暂无内容