视觉推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

标题：全新开源模型Mini-o3复现多轮视觉推理，无需大量训练即可实现深度思考正文： OpenAI o3的多轮视觉推理能力现在有了开源替代方案——Mini-o3。与现有视觉语言模型（VLM）通常局限于1-2轮对话不同，Mini-o3在训练限制仅6轮的情况下，测试时可扩展到数十轮推理。这一模型由...

原文链接

代码编织者Nexus

09-15 15:56:40

Mini-o3

多轮交互

视觉推理

分享至

打开微信扫一扫

内容投诉

生成图片

新研究：人类读指针式时钟准确率达 89.1%，顶尖 AI 仅 13.3%

9月14日，一项新研究显示，人类读取指针式时钟的准确率达89.1%，而顶尖AI模型仅13.3%。研究采用名为ClockBench的测试，包含180个定制时钟和720道题目，涵盖时间读取、计算及调整等任务。谷歌Gemini 2.5 Pro以13.3%准确率居首，GPT-5为8.4%，Grok 4垫底仅0.7%。研究指出，AI在视觉推理和特殊钟面设计上存在显著短板，尤其面对罗马数字或彩色背景时准确率更低。此外，尽管AI能完成后续数学运算，但初始视觉信息提取仍是瓶颈。研究者认为，当前AI能力需全新技术突破，而非简单扩大规模。该基准测试被定位为长期工具，完整数据集暂未公开。

原文链接

像素宇宙

09-14 16:42:29

AI模型

指针式时钟

视觉推理能力

分享至

打开微信扫一扫

内容投诉

生成图片

2025年了，AI还看不懂时钟？

标题：2025年了，AI还看不懂时钟？正文： AI基准创建者Alek Safar推出了一项视觉测试ClockBench，评估AI解读模拟时钟的能力。结果令人震惊：人类平均准确率89.1%，而11个主流AI模型的最佳成绩仅13.3%。 ClockBench包含180个时钟、720道问题，涵盖...

原文链接

AI创想团

09-08 21:03:50

ClockBench

视觉推理

读钟能力

分享至

打开微信扫一扫

内容投诉

生成图片

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

2025年8月12日，智谱开源发布了GLM-4.5V多模态视觉推理模型，参数规模达100B，在42项基准测试中拿下41个SOTA，登顶多模态榜单。该模型具备看图猜地址、视频转代码、复杂图表推理等强大功能，例如在GeoGuessr游戏中全球排名66，能精准识别《清明上河图》中的细节，并将视频一键还原为网站代码。API价格低至2元/百万token，官方赠送2000万免费额度。GLM-4.5V基于GLM-4.5基座，采用三阶段训练策略，支持图像、视频、文档理解等多场景应用，展现了强大的泛化与推理能力，成为AI多模态领域的新标杆。

原文链接

AI奇点纪元

08-12 16:19:29

GLM-4.5V

多模态模型

视觉推理

分享至

打开微信扫一扫

内容投诉

生成图片

智谱视觉推理模型 GLM-4.5V 上线并开源，号称“全球 100B 级效果最佳”

8月11日，智谱AI发布全球100B级效果最佳的开源视觉推理模型GLM-4.5V（总参数106B，激活参数12B），并在魔搭社区与Hugging Face同步开源。该模型基于GLM-4.5-Air，综合性能在41个视觉多模态榜单中达同级别SOTA水平，涵盖图像、视频、文档理解等任务。新增“思考模式”开关，可灵活选择快速响应或深度推理，并支持全场景视觉推理，如复杂图表分析、长视频分镜处理等。同时，智谱AI开源一款桌面助手应用，可实时截屏、录屏并依托GLM-4.5V完成代码辅助、文档解读等任务，旨在赋能开发者打造多模态应用场景，将科幻变为现实。API调用价格低至输入2元/M tokens，输出6元/M tokens。

原文链接

Journeyman

08-11 23:10:30

GLM-4.5V

开源

视觉推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

o3出圈玩法“看图猜位置”，豆包也安排上了！还是人人免费用那种

o3出圈玩法“看图猜位置”，豆包免费上线！ o3的“看图猜位置”玩法，如今豆包APP也安排上了，并且功能更强大。比如给出一张东方明珠的照片，豆包不仅能识别出是上海，还能推测出拍摄年份为1999年左右。这得益于其升级的视觉推理能力——图片也能深度思考。使用方法简单：开启深度思考模式，拍照或上传图片即...

原文链接

未来编码者

07-30 15:46:31

多模态

视觉推理

豆包App

分享至

打开微信扫一扫

内容投诉

生成图片

标题：多模态大模型视觉推理能力不足：RBench-V评估显示o3仅25.8%，远低于人类82.3% 多模态时代如何评估模型的视觉输出能力？清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V，专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域，要求模型生成或修改图像...

原文链接

LunarCoder

05-28 16:33:14

RBench-V

多模态大模型

视觉推理能力

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI的“看图思考”，被玩坏了……

标题：OpenAI的“看图思考”，被玩坏了…… 知道大模型开始卷视觉推理了，但没想到这么卷——连数学试卷都快不够用了。推理分逻辑和演绎两类，GPT-o3更新后两者都有涉及。视觉推理不新鲜，各家都在做，关键是从图片中识别并理解元素，进而应用于交互和任务解决。 Gemini 2.5曾表现出色，但o3刚...

原文链接

DreamCoder

04-18 14:14:06

OpenAI

大模型

视觉推理

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问正式推出QVQ-Max视觉推理模型第一版

《科创板日报》28日消息，阿里通义千问今日正式推出QVQ-Max视觉推理模型第一版。该模型是对去年12月推出的QVQ-72B-Preview的升级版本，后者虽为探索模型但存在一定局限性。QVQ-Max在多模态处理方面表现出色，不仅能识别图片和视频内容，还可通过分析与推理提供解决方案，涵盖数学题解答、生活问题处理、编程代码生成及艺术创作等多个领域。这一新模型的发布标志着AI技术在视觉理解和跨模态应用上的进一步突破。

原文链接

梦境编程师

03-28 13:48:04

QVQ-Max

视觉推理模型

阿里通义千问

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问推出视觉推理模型 QVQ-Max：可分析、推理图片和视频内容

3月28日凌晨，阿里通义千问团队发布新一代视觉推理模型QVQ-Max。该模型具备强大的图片和视频分析、推理能力，不仅能识别细节，还能根据背景知识进行深入推理，适用于多种场景。例如，它可解析复杂图表、生成短视频剧本，甚至创作角色扮演内容。此外，QVQ-Max还支持职场数据分析、学习辅助及生活建议等功能。用户可通过Qwen Chat上传图片或视频，点击“Thinking”按钮体验其推理能力。阿里巴巴称，这仅是模型演化的初期阶段，未来将持续优化性能和拓展功能。

原文链接

DreamCoder

03-28 11:43:06

QVQ-Max

视觉推理模型

阿里通义千问

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多