1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
2025年8月12日,智谱开源发布了GLM-4.5V多模态视觉推理模型,参数规模达100B,在42项基准测试中拿下41个SOTA,登顶多模态榜单。该模型具备看图猜地址、视频转代码、复杂图表推理等强大功能,例如在GeoGuessr游戏中全球排名66,能精准识别《清明上河图》中的细节,并将视频一键还原为网站代码。API价格低至2元/百万token,官方赠送2000万免费额度。GLM-4.5V基于GLM-4.5基座,采用三阶段训练策略,支持图像、视频、文档理解等多场景应用,展现了强大的泛化与推理能力,成为AI多模态领域的新标杆。
AI奇点纪元
08-12 16:19:29
GLM-4.5V
多模态模型
视觉推理
分享至
打开微信扫一扫
内容投诉
生成图片
智谱视觉推理模型 GLM-4.5V 上线并开源,号称“全球 100B 级效果最佳”
8月11日,智谱AI发布全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数106B,激活参数12B),并在魔搭社区与Hugging Face同步开源。该模型基于GLM-4.5-Air,综合性能在41个视觉多模态榜单中达同级别SOTA水平,涵盖图像、视频、文档理解等任务。新增“思考模式”开关,可灵活选择快速响应或深度推理,并支持全场景视觉推理,如复杂图表分析、长视频分镜处理等。同时,智谱AI开源一款桌面助手应用,可实时截屏、录屏并依托GLM-4.5V完成代码辅助、文档解读等任务,旨在赋能开发者打造多模态应用场景,将科幻变为现实。API调用价格低至输入2元/M tokens,输出6元/M tokens。
Journeyman
08-11 23:10:30
GLM-4.5V
开源
视觉推理模型
分享至
打开微信扫一扫
内容投诉
生成图片
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
o3出圈玩法“看图猜位置”,豆包免费上线! o3的“看图猜位置”玩法,如今豆包APP也安排上了,并且功能更强大。比如给出一张东方明珠的照片,豆包不仅能识别出是上海,还能推测出拍摄年份为1999年左右。这得益于其升级的视觉推理能力——图片也能深度思考。 使用方法简单:开启深度思考模式,拍照或上传图片即...
未来编码者
07-30 15:46:31
多模态
视觉推理
豆包App
分享至
打开微信扫一扫
内容投诉
生成图片
多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合
标题:多模态大模型视觉推理能力不足:RBench-V评估显示o3仅25.8%,远低于人类82.3% 多模态时代如何评估模型的视觉输出能力?清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V,专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域,要求模型生成或修改图像...
LunarCoder
05-28 16:33:14
RBench-V
多模态大模型
视觉推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI的“看图思考”,被玩坏了……
标题:OpenAI的“看图思考”,被玩坏了…… 知道大模型开始卷视觉推理了,但没想到这么卷——连数学试卷都快不够用了。 推理分逻辑和演绎两类,GPT-o3更新后两者都有涉及。视觉推理不新鲜,各家都在做,关键是从图片中识别并理解元素,进而应用于交互和任务解决。 Gemini 2.5曾表现出色,但o3刚...
DreamCoder
04-18 14:14:06
OpenAI
大模型
视觉推理
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问正式推出QVQ-Max视觉推理模型第一版
《科创板日报》28日消息,阿里通义千问今日正式推出QVQ-Max视觉推理模型第一版。该模型是对去年12月推出的QVQ-72B-Preview的升级版本,后者虽为探索模型但存在一定局限性。QVQ-Max在多模态处理方面表现出色,不仅能识别图片和视频内容,还可通过分析与推理提供解决方案,涵盖数学题解答、生活问题处理、编程代码生成及艺术创作等多个领域。这一新模型的发布标志着AI技术在视觉理解和跨模态应用上的进一步突破。
梦境编程师
03-28 13:48:04
QVQ-Max
视觉推理模型
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问推出视觉推理模型 QVQ-Max:可分析、推理图片和视频内容
3月28日凌晨,阿里通义千问团队发布新一代视觉推理模型QVQ-Max。该模型具备强大的图片和视频分析、推理能力,不仅能识别细节,还能根据背景知识进行深入推理,适用于多种场景。例如,它可解析复杂图表、生成短视频剧本,甚至创作角色扮演内容。此外,QVQ-Max还支持职场数据分析、学习辅助及生活建议等功能。用户可通过Qwen Chat上传图片或视频,点击“Thinking”按钮体验其推理能力。阿里巴巴称,这仅是模型演化的初期阶段,未来将持续优化性能和拓展功能。
DreamCoder
03-28 11:43:06
QVQ-Max
视觉推理模型
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek、OpenAI、Kimi 视觉推理哪家强,港中文 MMLab 推出推理基准 MME-COT
以下是原文 正文:香港中文大学MMLab推出MME-CoT基准,用于评估大型语言模型的视觉推理能力。MME-CoT涵盖了数学、科学、逻辑等多个领域,并引入了严格的评估框架。实验结果显示,Kimi k1.5在CoT质量上表现最优,而o3-mini在鲁棒性和效率方面更胜一筹。研究还发现,长CoT不一定涵盖关键步骤,模型参数量越大,推理能力越强。MME-CoT为评估LMM的推理能力提供了系统化基准,推动了该领域的发展。
神经网络领航员
02-22 18:44:16
MME-CoT
视觉推理
链式思维
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问开源视觉推理模型 QVQ-72B-Preview:像物理学家一样思考
阿里通义千问团队于12月25日发布了QVQ-72B-Preview开源视觉推理模型,该模型能在复杂物理问题上通过逻辑推理解决问题。QVQ-72B-Preview在MMMU、MathVista、MathVision及OlympiadBench四个数据集上进行了评估,表现出色,尤其在MMMU基准测试中得分70.3,超越了Qwen2-VL-72B-Instruct。然而,该模型仍存在语言混合、递归推理等问题,需谨慎使用。阿里通义千问团队表示,QVQ-72B-Preview是实验性研究模型,专注于增强视觉推理能力。
新智燎原
12-25 12:02:19
QVQ-72B-Preview
视觉推理模型
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
北大等团队发布了首个“慢思考”多模态视觉语言模型LLaVA-o1,基于Llama-3.2-Vision模型,超越传统思维链提示,实现了结构化、多步骤推理。在多模态推理基准测试中,LLaVA-o1比其基础模型提升了8.9%,并在性能上超越了一些开闭源模型。 例如,面对“减去所有小亮球和紫色物体,剩下多...
智慧棱镜
11-19 14:45:41
多模态
开源
视觉推理
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序