一觉醒来,发现AI的智商比肩爱因斯坦。OpenAI新模型o3在Codeforces上的评分达2727,换算成人脑智商约为157,远超普通人类。短短7个月内,从GPT-4o到o3,AI智商飙升42分。
尽管AI表现惊人,但用人类智商测试来衡量并不恰当。传统智商测试基于人类特有的思维模式,涵盖逻辑推理、空间认知等,而AI遵循数据输入、特征提取等路径,形似而神异。苹果公司研究指出,AI模型缺乏真正的形式推理能力,仅在模式匹配上表现出色,但这一机制极为脆弱。
例如,GPT-4o虽在某些测试中表现优异,却常犯基础错误,如分不清9.8和9.11。这说明AI的“智商”更多是计算能力,而非真正智能。图灵测试和门萨测试也存在局限性,过分关注语言交流或特定人群。
因此,评估AI进步应转向解决实际问题的能力。基准测试如GSM8K、MATH、HumanEval等考察数学、编程等,但需避免模型因提前训练而“刷榜”。ARC-AGI测试则评估AI抽象推理和未知任务的学习能力,更具挑战性。
尽管o3在ARC-AGI测试中表现良好,但仍未实现通用人工智能(AGI)。未来应关注AI如何更好地服务于人类社会的实际需求,而非单纯追求高分。
原文链接
本文链接:https://kx.umi6.com/article/10740.html
转载请注明文章出处
相关推荐
换一换
专家:人类智商测试并不适用于 AI
2025-02-06 10:28:48
中国信通院牵头的大模型基准测试ITU国际标准正式发布
2025-04-11 14:56:48
UL Solutions 推出 AI 文本生成基准测试,支持英伟达、AMD、英特尔三家显卡
2024-12-11 17:33:56
Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B
2024-09-11 12:24:53
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
2025-05-29 15:34:10
OpenAI o3 模型基准测试成绩遭质疑,实测分数远不及宣称
2025-04-21 08:32:30
国际象棋赛OpenAI o3碾压夺冠,马斯克Grok决赛遭零封
2025-08-14 03:46:25
OpenAI o3 AI 模型突破推理极限背后:成本飙升,没“钞能力”用不起
2024-12-24 09:27:27
AI“推理”模型兴起,基准测试成本飙升
2025-04-13 10:34:23
开源AI新王被指造假,不要迷信大模型的榜单了
2024-09-11 20:33:28
外国高三学生创建 AI 评测网站:让模型在《我的世界》里“一决高下”
2025-03-22 16:25:54
谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”
2024-12-18 14:32:52
多项力压 Grok 4、OpenAI o3,谷歌推出 Gemini 2.5 Deep Think 模型
2025-08-01 23:08:15
540 文章
264696 浏览
24小时热文
更多
-
2025-11-03 18:35:21 -
2025-11-03 18:34:22 -
2025-11-03 18:34:13