标题:万轮实测:GPT-4.5 不如 GPT-4
经过总计30291次盲测投票,大多数人更喜欢GPT-4。赛博菩萨Andrej Karpathy回顾了GPT系列的发展历史:GPT-1只能生成基本文本,GPT-2较为混乱,GPT-3更为有趣;GPT-3.5达到商用水平并引发“ChatGPT时刻”;GPT-4带来全面提升。
Karpathy设计了5个有趣的prompt来评估非推理能力,并让GPT-4和GPT-4.5分别作答。用户在不知情的情况下进行投票比较。
结果显示: - 问题一:GPT-4胜出(32.8% vs 25.2%) - 问题二:GPT-4胜出(30.4% vs 23.1%) - 问题三:GPT-4胜出(14% vs 26.1%) - 问题四:GPT-4胜出(16.1% vs 29.5%) - 问题五:GPT-4胜出(29.2% vs 16.1%)
最终,GPT-4.5在情商任务上表现不如GPT-4。
原文链接
本文链接:https://kx.umi6.com/article/14566.html
转载请注明文章出处
相关推荐
换一换
GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭
2025-03-04 14:11:50
OpenAI发布GPT-4.5:情商高、更擅长骗其他AI打钱
2025-02-28 05:54:27
AI可能比你更会炒股?
2024-05-30 16:02:33
Llama 3.1横空出世,开源巨无霸首次击溃闭源,全民GPT-4时代来临
2024-07-24 13:57:56
Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想
2024-06-07 16:37:36
OpenAI公开破解GPT-4思维的新方法,Ilya也参与了
2024-06-07 20:51:33
OpenAI 开放 GPT-4o 定制功能,企业可更轻松打造专属 AI 助手
2024-08-21 08:01:20
OpenAI最大最贵模型,没把DeepSeek当对手
2025-02-28 18:22:32
GPT-4.5 登场:OpenAI 最强、最佳 AI 聊天模型,更睿智、更高“情商”、更少幻觉
2025-02-28 06:55:38
我们设想过GPT-4.5的各种亮点,但OpenAI只带来了情商和巨贵的API
2025-02-28 15:17:50
OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限
2024-06-28 11:36:12
Wanderboat AI:这个华人团队开发的AI旅行app,是大模型时代的小红书+马蜂窝?
2024-07-12 12:02:59
消息称OpenAI GPT-4.5最快有望下周面世 GPT-5或5月下旬发布
2025-02-21 11:51:57
666 文章
502357 浏览
24小时热文
更多
-
2026-04-24 16:22:09 -
2026-04-24 16:21:03 -
2026-04-24 16:19:57