1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:万轮实测:GPT-4.5 不如 GPT-4

经过总计30291次盲测投票,大多数人更喜欢GPT-4。赛博菩萨Andrej Karpathy回顾了GPT系列的发展历史:GPT-1只能生成基本文本,GPT-2较为混乱,GPT-3更为有趣;GPT-3.5达到商用水平并引发“ChatGPT时刻”;GPT-4带来全面提升。

Karpathy设计了5个有趣的prompt来评估非推理能力,并让GPT-4和GPT-4.5分别作答。用户在不知情的情况下进行投票比较。

结果显示: - 问题一:GPT-4胜出(32.8% vs 25.2%) - 问题二:GPT-4胜出(30.4% vs 23.1%) - 问题三:GPT-4胜出(14% vs 26.1%) - 问题四:GPT-4胜出(16.1% vs 29.5%) - 问题五:GPT-4胜出(29.2% vs 16.1%)

最终,GPT-4.5在情商任务上表现不如GPT-4。

原文链接
本文链接:https://kx.umi6.com/article/14566.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI 的 GPT-4 变身考证能手:无额外训练通过日本理疗师考试,正确率 73.4%
2024-08-31 09:49:38
OpenAI 宣布 GPT-4.5 正式面向所有 ChatGPT Plus 用户开放
2025-03-06 08:46:57
OpenAI发布GPT-4.5:情商高、更擅长骗其他AI打钱
2025-02-28 05:54:27
Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想
2024-06-07 16:37:36
科大讯飞:讯飞星火 V4.0 正在训练中,对标 GPT-4o 的产品也在研发
2024-06-02 17:40:49
万轮实测:GPT-4.5不如GPT-4
2025-02-28 21:30:01
曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考
2025-02-27 10:11:51
加州大学研究:AI 模型 GPT - 4.5 和 Llama 3.1 - 405B 可通过标准图灵测试
2025-04-02 16:33:23
奥尔特曼坦诚 OpenAI 急缺 GPU,GPT-4.5 只能分阶段推出
2025-02-28 10:04:01
中国版GPT-4o来了!商汤发布6000亿多模态基础模型,最低0元Go
2024-07-07 09:09:03
“ChatGPT之母”:人工智能对经济的影响才刚刚开始
2024-05-30 18:04:48
OpenAI 揭秘 GPT-4.5 训练:10 万块 GPU,几乎全员上阵,出现“灾难性问题”
2025-04-13 15:43:17
GPT-4被证实具有「人类心智」登Nature!AI比人类更好察觉讽刺和暗示
2024-05-27 18:08:59
24小时热文
更多
扫一扫体验小程序