非营利组织‘人工智能安全中心’(CAIS)与Scale AI联合推出‘人类终极考试’基准测试,评估AI系统的综合能力。该测试由全球500多个机构的近1000名专家设计,涵盖多领域复杂题型。初步结果显示,所有公开旗舰AI系统准确率均未超10%,暴露了AI在综合性问题上的不足。CAIS和Scale AI计划将测试向研究社区开放,以进一步评估新模型。测试于1月24日发布。
原文链接
本文链接:https://kx.umi6.com/article/12152.html
转载请注明文章出处
相关推荐
换一换
三星版“豆包手机”发布 深度绑定AI
2026-02-27 18:03:30
OpenAI两大推理模型,要把Agent吞进模型里了
2025-04-17 12:36:09
开源AI新王被指造假,不要迷信大模型的榜单了
2024-09-11 20:33:28
UL Solutions 推出 AI 文本生成基准测试,支持英伟达、AMD、英特尔三家显卡
2024-12-11 17:33:56
AI 系统“闹乌龙”:美国一学生手中的薯片被误识别为枪支,一度惊动警察
2025-10-25 16:29:56
具身智能领域首个行业标准正式发布
2026-03-26 22:25:30
系统级AI的“微观竞争”,OPPO选择从底层到交互重构ColorOS
2024-10-21 10:21:38
GPT-4o不敌Qwen,无一模型及格!UC伯克利港大等提出多模态新基准
2025-05-16 13:37:28
上海交大联合开发 AI 系统,首次实现孕前精准预测流产风险
2024-10-12 10:32:53
科技先驱警告:AI系统可能“与人类作对”
2024-11-21 22:46:35
OpenAI o3 模型基准测试成绩遭质疑,实测分数远不及宣称
2025-04-21 08:32:30
挪威 1X 公司推出家用人形机器人 Neo Gamma:尼龙“皮肤”,能洗衣、吸尘
2025-02-22 15:37:26
Geekbench AI 性能跑分工具 1.0 发布,支持 PC 手机全平台
2024-08-16 10:43:57
666 文章
502632 浏览
24小时热文
更多
-
2026-04-24 23:43:31 -
2026-04-24 23:42:26 -
2026-04-24 23:41:21