1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

近日,由谢赛宁领衔的华人团队推出全新编程竞赛基准LiveCodeBench Pro,测试中顶级大模型全军覆没,无一得分。该基准题库每日更新,涵盖IOI、Codeforces和ICPC竞赛题,防止模型刷题。测试显示,模型在知识密集型和逻辑密集型问题上有一定表现,但在观察密集型问题上表现欠佳。表现最佳的模型在中等难度题上的通过率仅为53%,难题通过率为0。即使工具调用被屏蔽,顶级模型的Elo评分仍低于人类大师级水平。团队成员多为奥林匹克竞赛获奖者,超半数为华人,且团队年轻化,成员来自顶尖学府。该项目旨在持续评估大模型算法逻辑深度,每个季度将发布全新评估集。

原文链接
本文链接:https://kx.umi6.com/article/20456.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
你用的大模型是什么MBTI?
2025-09-23 20:23:14
百度世界2025将于11月13日在北京举办
2025-10-13 20:03:11
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
2025-08-11 16:04:21
把枯燥的工作先扔给大模型?
2025-08-15 12:12:45
31亿!我国大模型应用个人用户注册“爆表” 竟超全国人口规模2倍多
2025-07-31 12:06:11
上海累计82款大模型通过备案
2025-07-10 11:28:53
华人团队产品借越南突围,「AI好友」月活破百万
2025-07-17 16:28:20
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
如何避免成为AI墓地的一员?
2025-07-23 13:50:51
美团发布并开源 LongCat-Flash-Chat 大模型:总参数 560B,AI 智能体任务表现突出
2025-09-01 11:16:10
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
24小时热文
更多
扫一扫体验小程序