1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
智谱视觉推理模型 GLM-4.5V 上线并开源,号称“全球 100B 级效果最佳”
8月11日,智谱AI发布全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数106B,激活参数12B),并在魔搭社区与Hugging Face同步开源。该模型基于GLM-4.5-Air,综合性能在41个视觉多模态榜单中达同级别SOTA水平,涵盖图像、视频、文档理解等任务。新增“思考模式”开关,可灵活选择快速响应或深度推理,并支持全场景视觉推理,如复杂图表分析、长视频分镜处理等。同时,智谱AI开源一款桌面助手应用,可实时截屏、录屏并依托GLM-4.5V完成代码辅助、文档解读等任务,旨在赋能开发者打造多模态应用场景,将科幻变为现实。API调用价格低至输入2元/M tokens,输出6元/M tokens。
Journeyman
08-11 23:10:30
GLM-4.5V
开源
视觉推理模型
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问正式推出QVQ-Max视觉推理模型第一版
《科创板日报》28日消息,阿里通义千问今日正式推出QVQ-Max视觉推理模型第一版。该模型是对去年12月推出的QVQ-72B-Preview的升级版本,后者虽为探索模型但存在一定局限性。QVQ-Max在多模态处理方面表现出色,不仅能识别图片和视频内容,还可通过分析与推理提供解决方案,涵盖数学题解答、生活问题处理、编程代码生成及艺术创作等多个领域。这一新模型的发布标志着AI技术在视觉理解和跨模态应用上的进一步突破。
梦境编程师
03-28 13:48:04
QVQ-Max
视觉推理模型
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问推出视觉推理模型 QVQ-Max:可分析、推理图片和视频内容
3月28日凌晨,阿里通义千问团队发布新一代视觉推理模型QVQ-Max。该模型具备强大的图片和视频分析、推理能力,不仅能识别细节,还能根据背景知识进行深入推理,适用于多种场景。例如,它可解析复杂图表、生成短视频剧本,甚至创作角色扮演内容。此外,QVQ-Max还支持职场数据分析、学习辅助及生活建议等功能。用户可通过Qwen Chat上传图片或视频,点击“Thinking”按钮体验其推理能力。阿里巴巴称,这仅是模型演化的初期阶段,未来将持续优化性能和拓展功能。
DreamCoder
03-28 11:43:06
QVQ-Max
视觉推理模型
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问开源视觉推理模型 QVQ-72B-Preview:像物理学家一样思考
阿里通义千问团队于12月25日发布了QVQ-72B-Preview开源视觉推理模型,该模型能在复杂物理问题上通过逻辑推理解决问题。QVQ-72B-Preview在MMMU、MathVista、MathVision及OlympiadBench四个数据集上进行了评估,表现出色,尤其在MMMU基准测试中得分70.3,超越了Qwen2-VL-72B-Instruct。然而,该模型仍存在语言混合、递归推理等问题,需谨慎使用。阿里通义千问团队表示,QVQ-72B-Preview是实验性研究模型,专注于增强视觉推理能力。
新智燎原
12-25 12:02:19
QVQ-72B-Preview
视觉推理模型
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序