9月26日,OpenAI发布新基准测试,评估其AI模型与行业专家的工作表现。结果显示,GPT-5-high在40.6%的任务中媲美或超越人类专家,而Anthropic的Claude Opus 4.1在49%的任务中达到类似水平。OpenAI指出,Claude得分更高部分因其擅长生成美观图表,而非单纯性能优势。这一测试凸显AI在专业领域的快速进步,引发对人机协作未来的更多讨论。
原文链接
本文链接:https://kx.umi6.com/article/25900.html
转载请注明文章出处
相关推荐
换一换
刚刚,Claude实现「永久记忆」!官方还没上线,大神已玩疯
2026-01-21 11:00:16
商汤开源 SenseNova-SI 模型:能理解空间结构,号称多项评测领先 GPT-5
2025-11-11 00:37:55
GPT-5发威,逼得马斯克 「放大招」?
2025-08-12 11:17:40
ChatGPT 为何退回了 4o ?
2025-08-10 15:48:45
全球首个AI投资大赛落幕!阿里Qwen 20%收益夺冠,GPT-5亏到只剩三成
2025-11-04 17:21:10
奥尔特曼:感受不到 GPT-5 变强,是因为你还不够「专业」
2025-10-05 20:24:55
LMArena排行榜:Claude、GPT-5、智谱GLM-4.6排名并列全球第一
2025-11-13 21:22:57
OpenAI 申请 GPT-5 中国商标遇挫,相关申请均被驳回
2025-08-11 15:02:44
硅谷画饼王“塌房”:奥特曼撒谎微表情被扒光,网友集体喊下台
2025-08-16 18:29:48
首个接入GPT-5的视频Agent!一句话生成广告大片,分镜配音全包了
2025-08-26 16:47:05
OpenAI GPT-5 编程成绩有猫腻:自删 23 道测试题,关键基准还是自己提的
2025-08-12 13:18:21
中信建投:GPT-5发布与华为CANN开源有望带动AI应用发展
2025-08-11 09:00:14
写在GPT-5风波之后:为什么AI的智商和情商不可兼得?
2025-08-14 10:51:09
621 文章
400484 浏览
24小时热文
更多
-
2026-01-23 12:56:24 -
2026-01-23 11:53:08 -
2026-01-23 11:52:03