标题:OpenAI的“看图思考”,被玩坏了……
知道大模型开始卷视觉推理了,但没想到这么卷——连数学试卷都快不够用了。
推理分逻辑和演绎两类,GPT-o3更新后两者都有涉及。视觉推理不新鲜,各家都在做,关键是从图片中识别并理解元素,进而应用于交互和任务解决。
Gemini 2.5曾表现出色,但o3刚发布时认不出武康大楼,下午才恢复正常。它能识别验证码,实用性较强,但在传统搜索引擎面前,这类简单任务意义不大。
测试中,o3尝试了国家公务员考试图形推理题,耗时超六分钟,思维链长达5千字,结合代码辅助,可惜答错了。这种归纳推理可用于AI检测AI生成的图像。
o3还能解迷宫,但推理时间长且效果一般,最后生成的路径无法点击。它通过调用外部工具解决问题,但准确率和响应速度有待提高。
演绎推理更令人兴奋,团队设计了“看工位猜MBTI”的挑战。o3通过分析桌面细节,判断同事的性格倾向,虽有趣但有时不如本人了解自己。
总体而言,o3的图片推理能力潜力巨大,但娱乐性强于实用性,切勿用于严肃场合。
原文链接
本文链接:https://kx.umi6.com/article/17410.html
转载请注明文章出处
相关推荐
换一换
OpenAI 与盖茨基金会将向非洲投资 5000 万美元,利用 AI 改善医疗体系
2026-01-21 15:16:32
软银据悉寻求最高400亿美元贷款 用于投资OpenAI
2026-03-06 13:02:04
阶跃星辰杀入季后赛,强势跻身AI“新六小虎”第一梯队
2026-02-27 15:48:37
GPT-5.3上线Codex!OpenAI回应Claude新模型只用了15分钟
2026-02-06 11:46:30
OpenAI 首席财务官:过去三年,公司收入、算力均累计增长约十倍
2026-01-19 16:03:05
OpenAI拟运用AI助力药企研发并从中获利
2026-02-04 08:29:27
OpenAI明日举办面向AI开发者的线上研讨会
2026-01-26 08:58:34
英伟达、微软、亚马逊正就向OpenAI投资高达600亿美元事宜展开谈判
2026-01-29 11:26:08
GPT-5.4发布:OpenAI首个大一统模型,简直是龙虾原生
2026-03-06 09:42:29
缺乏实质证据 美国法院暂时驳回xAI针对OpenAI的商业机密侵权指控
2026-02-25 17:42:04
又一个谷歌不作恶式的形象崩塌 OpenAI删除AI安全造福人类承诺
2026-02-14 22:47:09
OpenAI准备在本周推出更新版聊天模型
2026-02-09 21:33:55
OpenAI或为亚马逊AI产品开发定制化模型
2026-02-04 22:10:24
736 文章
530948 浏览
24小时热文
更多
-
2026-03-10 10:03:26 -
2026-03-10 10:02:35 -
2026-03-10 09:02:22