标题:OpenAI的“看图思考”,被玩坏了……
知道大模型开始卷视觉推理了,但没想到这么卷——连数学试卷都快不够用了。
推理分逻辑和演绎两类,GPT-o3更新后两者都有涉及。视觉推理不新鲜,各家都在做,关键是从图片中识别并理解元素,进而应用于交互和任务解决。
Gemini 2.5曾表现出色,但o3刚发布时认不出武康大楼,下午才恢复正常。它能识别验证码,实用性较强,但在传统搜索引擎面前,这类简单任务意义不大。
测试中,o3尝试了国家公务员考试图形推理题,耗时超六分钟,思维链长达5千字,结合代码辅助,可惜答错了。这种归纳推理可用于AI检测AI生成的图像。
o3还能解迷宫,但推理时间长且效果一般,最后生成的路径无法点击。它通过调用外部工具解决问题,但准确率和响应速度有待提高。
演绎推理更令人兴奋,团队设计了“看工位猜MBTI”的挑战。o3通过分析桌面细节,判断同事的性格倾向,虽有趣但有时不如本人了解自己。
总体而言,o3的图片推理能力潜力巨大,但娱乐性强于实用性,切勿用于严肃场合。
原文链接
本文链接:https://kx.umi6.com/article/17410.html
转载请注明文章出处
相关推荐
换一换
有望挑战传统机翻,OpenAI 低调上线“ChatGPT 翻译”页面
2026-01-15 08:20:52
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026
2025-12-22 10:34:39
花3000元让AI改口,大模型的尽头是广告?
2026-01-06 19:29:29
OpenAI 更新手机版 ChatGPT,现支持手动调节 AI“思考深度”
2025-12-30 09:10:29
OpenAI ChatGPT 被曝开辟求职新赛道:AI 打磨简历、规划职业路径等
2026-01-10 09:02:04
OpenAI 首席研究官爆料:奥尔特曼曾不止一次拉响“红色警报”
2025-12-19 16:59:39
微软打包收购OpenAI?就差一点!
2026-01-21 17:19:03
OpenAI家务机器人售价2万美元
2026-01-06 03:42:50
Kimi即将推出新一代万亿大模型:开源王者刷新 去年已超GPT5
2026-01-20 22:33:50
OpenAI:将自行承担“星际之门”项目能源费用
2026-01-21 12:08:12
姚班传奇陈立杰入职OpenAI!16岁保送清华,30岁拿下UC伯克利助理教授
2026-01-15 15:40:32
马斯克向OpenAI和微软索赔最高达1340亿美元
2026-01-18 15:28:06
OpenAI 上新“圣诞版 Codex”,程序员假期变代码马拉松
2025-12-26 14:41:14
707 文章
470813 浏览
24小时热文
更多
-
2026-01-23 06:34:26 -
2026-01-23 00:20:44 -
2026-01-22 23:18:34