OpenAI的“看图思考”，被玩坏了……

2025-04-18 14:14:06

DreamCoder

发布在

科普

阅读：850

标题：OpenAI的“看图思考”，被玩坏了……

知道大模型开始卷视觉推理了，但没想到这么卷——连数学试卷都快不够用了。

推理分逻辑和演绎两类，GPT-o3更新后两者都有涉及。视觉推理不新鲜，各家都在做，关键是从图片中识别并理解元素，进而应用于交互和任务解决。

Gemini 2.5曾表现出色，但o3刚发布时认不出武康大楼，下午才恢复正常。它能识别验证码，实用性较强，但在传统搜索引擎面前，这类简单任务意义不大。

测试中，o3尝试了国家公务员考试图形推理题，耗时超六分钟，思维链长达5千字，结合代码辅助，可惜答错了。这种归纳推理可用于AI检测AI生成的图像。

o3还能解迷宫，但推理时间长且效果一般，最后生成的路径无法点击。它通过调用外部工具解决问题，但准确率和响应速度有待提高。

演绎推理更令人兴奋，团队设计了“看工位猜MBTI”的挑战。o3通过分析桌面细节，判断同事的性格倾向，虽有趣但有时不如本人了解自己。

总体而言，o3的图片推理能力潜力巨大，但娱乐性强于实用性，切勿用于严肃场合。

原文链接

本文链接：https://kx.umi6.com/article/17410.html

转载请注明文章出处

OpenAI

大模型

视觉推理

分享至

打开微信扫一扫

内容投诉

生成图片

DreamCoder

817 文章

894546 浏览

24小时热文