视觉推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

标题：全新开源模型Mini-o3复现多轮视觉推理，无需大量训练即可实现深度思考正文： OpenAI o3的多轮视觉推理能力现在有了开源替代方案——Mini-o3。与现有视觉语言模型（VLM）通常局限于1-2轮对话不同，Mini-o3在训练限制仅6轮的情况下，测试时可扩展到数十轮推理。这一模型由...

原文链接

代码编织者Nexus

09-15 15:56:40

分享至

打开微信扫一扫

内容投诉

生成图片

2025年了，AI还看不懂时钟？

标题：2025年了，AI还看不懂时钟？正文： AI基准创建者Alek Safar推出了一项视觉测试ClockBench，评估AI解读模拟时钟的能力。结果令人震惊：人类平均准确率89.1%，而11个主流AI模型的最佳成绩仅13.3%。 ClockBench包含180个时钟、720道问题，涵盖...

原文链接

AI创想团

09-08 21:03:50

分享至

打开微信扫一扫

内容投诉

生成图片

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

2025年8月12日，智谱开源发布了GLM-4.5V多模态视觉推理模型，参数规模达100B，在42项基准测试中拿下41个SOTA，登顶多模态榜单。该模型具备看图猜地址、视频转代码、复杂图表推理等强大功能，例如在GeoGuessr游戏中全球排名66，能精准识别《清明上河图》中的细节，并将视频一键还原为网站代码。API价格低至2元/百万token，官方赠送2000万免费额度。GLM-4.5V基于GLM-4.5基座，采用三阶段训练策略，支持图像、视频、文档理解等多场景应用，展现了强大的泛化与推理能力，成为AI多模态领域的新标杆。

原文链接

AI奇点纪元

08-12 16:19:29

分享至

打开微信扫一扫

内容投诉

生成图片

o3出圈玩法“看图猜位置”，豆包也安排上了！还是人人免费用那种

o3出圈玩法“看图猜位置”，豆包免费上线！ o3的“看图猜位置”玩法，如今豆包APP也安排上了，并且功能更强大。比如给出一张东方明珠的照片，豆包不仅能识别出是上海，还能推测出拍摄年份为1999年左右。这得益于其升级的视觉推理能力——图片也能深度思考。使用方法简单：开启深度思考模式，拍照或上传图片即...

原文链接

未来编码者

07-30 15:46:31

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI的“看图思考”，被玩坏了……

标题：OpenAI的“看图思考”，被玩坏了…… 知道大模型开始卷视觉推理了，但没想到这么卷——连数学试卷都快不够用了。推理分逻辑和演绎两类，GPT-o3更新后两者都有涉及。视觉推理不新鲜，各家都在做，关键是从图片中识别并理解元素，进而应用于交互和任务解决。 Gemini 2.5曾表现出色，但o3刚...

原文链接

DreamCoder

04-18 14:14:06

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek、OpenAI、Kimi 视觉推理哪家强，港中文 MMLab 推出推理基准 MME-COT

以下是原文正文：香港中文大学MMLab推出MME-CoT基准，用于评估大型语言模型的视觉推理能力。MME-CoT涵盖了数学、科学、逻辑等多个领域，并引入了严格的评估框架。实验结果显示，Kimi k1.5在CoT质量上表现最优，而o3-mini在鲁棒性和效率方面更胜一筹。研究还发现，长CoT不一定涵盖关键步骤，模型参数量越大，推理能力越强。MME-CoT为评估LMM的推理能力提供了系统化基准，推动了该领域的发展。

原文链接

神经网络领航员

02-22 18:44:16

分享至

打开微信扫一扫

内容投诉

生成图片

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭源

北大等团队发布了首个“慢思考”多模态视觉语言模型LLaVA-o1，基于Llama-3.2-Vision模型，超越传统思维链提示，实现了结构化、多步骤推理。在多模态推理基准测试中，LLaVA-o1比其基础模型提升了8.9%，并在性能上超越了一些开闭源模型。例如，面对“减去所有小亮球和紫色物体，剩下多...

原文链接

智慧棱镜

11-19 14:45:41

分享至

打开微信扫一扫

内容投诉

生成图片

新王Claude 3.5实测：阿里数学竞赛题不给选项直接做对

阿里云新模型Claude 3.5 Sonnet实测表现强势，超越GPT-4在多项任务中展现出色的能力，包括快速复制UI设计、解答阿里巴巴数学竞赛选择题（不给选项）、视觉推理与编码。网友对其编码效率赞誉有加，声称是现有LLMs的10倍。模型在创作游戏、编码修复和原创设计方面展现出创新性，但同时也暴露出一些简单任务的不足。Claude背后的Anthropic公司被视为OpenAI的竞争者，随着新模型的不断迭代，如Sonnet系列，Anthropic正挑战GPT系列的地位，引发了行业关注。期待更多模型较量，如超大杯Opus的登场。

原文链接

DreamCoder

06-21 17:13:00

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多