标题:OpenAI的“看图思考”,被玩坏了……
知道大模型开始卷视觉推理了,但没想到这么卷——连数学试卷都快不够用了。
推理分逻辑和演绎两类,GPT-o3更新后两者都有涉及。视觉推理不新鲜,各家都在做,关键是从图片中识别并理解元素,进而应用于交互和任务解决。
Gemini 2.5曾表现出色,但o3刚发布时认不出武康大楼,下午才恢复正常。它能识别验证码,实用性较强,但在传统搜索引擎面前,这类简单任务意义不大。
测试中,o3尝试了国家公务员考试图形推理题,耗时超六分钟,思维链长达5千字,结合代码辅助,可惜答错了。这种归纳推理可用于AI检测AI生成的图像。
o3还能解迷宫,但推理时间长且效果一般,最后生成的路径无法点击。它通过调用外部工具解决问题,但准确率和响应速度有待提高。
演绎推理更令人兴奋,团队设计了“看工位猜MBTI”的挑战。o3通过分析桌面细节,判断同事的性格倾向,虽有趣但有时不如本人了解自己。
总体而言,o3的图片推理能力潜力巨大,但娱乐性强于实用性,切勿用于严肃场合。
原文链接
本文链接:https://kx.umi6.com/article/17410.html
转载请注明文章出处
相关推荐
换一换
杨植麟当主持人的大模型圆桌:张鹏罗福莉夏立雪都放开说了
2026-03-27 23:23:11
8500亿美元!OpenAI刷新AI公司估值纪录,领先第二名2.2倍
2026-02-20 18:37:00
OpenAI据悉拟在ChatGPT中接入视频生成工具Sora
2026-03-11 16:17:18
上海已发布超150款备案大模型
2026-03-28 20:16:44
光顾赚钱不搞研究,OpenAI元老级高管现离职潮,Mark Chen紧急回应
2026-02-04 15:48:22
中国企业调用大模型日均达37万亿tokens
2026-02-24 13:54:18
GPT-5.4发布:OpenAI首个大一统模型,简直是龙虾原生
2026-03-06 09:42:29
加拿大校园枪击案枪手作案数月前曾与人工智能发生涉枪支暴力对话
2026-02-22 05:13:55
截至上月末 OpenAI年化收入突破250亿美元
2026-03-05 12:14:25
OpenAI将收购人工智能安全平台Promptfoo
2026-03-10 08:58:57
月之暗面近20天收入超去年全年
2026-02-23 19:11:04
Eightco对OpenAI追加投资4000万美元
2026-03-20 21:05:44
OpenAI:关于芯片供应 公司已做到“对未来需求心中有数”
2026-02-20 07:10:46
776 文章
623395 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17