
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月11日,智谱AI发布全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数106B,激活参数12B),并在魔搭社区与Hugging Face同步开源。该模型基于GLM-4.5-Air,综合性能在41个视觉多模态榜单中达同级别SOTA水平,涵盖图像、视频、文档理解等任务。新增“思考模式”开关,可灵活选择快速响应或深度推理,并支持全场景视觉推理,如复杂图表分析、长视频分镜处理等。同时,智谱AI开源一款桌面助手应用,可实时截屏、录屏并依托GLM-4.5V完成代码辅助、文档解读等任务,旨在赋能开发者打造多模态应用场景,将科幻变为现实。API调用价格低至输入2元/M tokens,输出6元/M tokens。
原文链接
《科创板日报》28日消息,阿里通义千问今日正式推出QVQ-Max视觉推理模型第一版。该模型是对去年12月推出的QVQ-72B-Preview的升级版本,后者虽为探索模型但存在一定局限性。QVQ-Max在多模态处理方面表现出色,不仅能识别图片和视频内容,还可通过分析与推理提供解决方案,涵盖数学题解答、生活问题处理、编程代码生成及艺术创作等多个领域。这一新模型的发布标志着AI技术在视觉理解和跨模态应用上的进一步突破。
原文链接
3月28日凌晨,阿里通义千问团队发布新一代视觉推理模型QVQ-Max。该模型具备强大的图片和视频分析、推理能力,不仅能识别细节,还能根据背景知识进行深入推理,适用于多种场景。例如,它可解析复杂图表、生成短视频剧本,甚至创作角色扮演内容。此外,QVQ-Max还支持职场数据分析、学习辅助及生活建议等功能。用户可通过Qwen Chat上传图片或视频,点击“Thinking”按钮体验其推理能力。阿里巴巴称,这仅是模型演化的初期阶段,未来将持续优化性能和拓展功能。
原文链接
阿里通义千问团队于12月25日发布了QVQ-72B-Preview开源视觉推理模型,该模型能在复杂物理问题上通过逻辑推理解决问题。QVQ-72B-Preview在MMMU、MathVista、MathVision及OlympiadBench四个数据集上进行了评估,表现出色,尤其在MMMU基准测试中得分70.3,超越了Qwen2-VL-72B-Instruct。然而,该模型仍存在语言混合、递归推理等问题,需谨慎使用。阿里通义千问团队表示,QVQ-72B-Preview是实验性研究模型,专注于增强视觉推理能力。
原文链接
加载更多

暂无内容