一觉醒来,发现AI的智商比肩爱因斯坦。OpenAI新模型o3在Codeforces上的评分达2727,换算成人脑智商约为157,远超普通人类。短短7个月内,从GPT-4o到o3,AI智商飙升42分。
尽管AI表现惊人,但用人类智商测试来衡量并不恰当。传统智商测试基于人类特有的思维模式,涵盖逻辑推理、空间认知等,而AI遵循数据输入、特征提取等路径,形似而神异。苹果公司研究指出,AI模型缺乏真正的形式推理能力,仅在模式匹配上表现出色,但这一机制极为脆弱。
例如,GPT-4o虽在某些测试中表现优异,却常犯基础错误,如分不清9.8和9.11。这说明AI的“智商”更多是计算能力,而非真正智能。图灵测试和门萨测试也存在局限性,过分关注语言交流或特定人群。
因此,评估AI进步应转向解决实际问题的能力。基准测试如GSM8K、MATH、HumanEval等考察数学、编程等,但需避免模型因提前训练而“刷榜”。ARC-AGI测试则评估AI抽象推理和未知任务的学习能力,更具挑战性。
尽管o3在ARC-AGI测试中表现良好,但仍未实现通用人工智能(AGI)。未来应关注AI如何更好地服务于人类社会的实际需求,而非单纯追求高分。
原文链接
本文链接:https://kx.umi6.com/article/10740.html
转载请注明文章出处
相关推荐
.png)
换一换
Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B
2024-09-11 12:24:53
OpenAI o3 AI 模型突破推理极限背后:成本飙升,没“钞能力”用不起
2024-12-24 09:27:27
开源AI新王被指造假,不要迷信大模型的榜单了
2024-09-11 20:33:28
431 文章
72217 浏览
24小时热文
更多

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13