近日,由谢赛宁领衔的华人团队推出全新编程竞赛基准LiveCodeBench Pro,测试中顶级大模型全军覆没,无一得分。该基准题库每日更新,涵盖IOI、Codeforces和ICPC竞赛题,防止模型刷题。测试显示,模型在知识密集型和逻辑密集型问题上有一定表现,但在观察密集型问题上表现欠佳。表现最佳的模型在中等难度题上的通过率仅为53%,难题通过率为0。即使工具调用被屏蔽,顶级模型的Elo评分仍低于人类大师级水平。团队成员多为奥林匹克竞赛获奖者,超半数为华人,且团队年轻化,成员来自顶尖学府。该项目旨在持续评估大模型算法逻辑深度,每个季度将发布全新评估集。
原文链接
本文链接:https://kx.umi6.com/article/20456.html
转载请注明文章出处
相关推荐
.png)
换一换
数字人,正在逼近盈利线
2025-07-17 12:20:37
北京:开展大模型应用中试验证 对承担国家或市重点任务的仿真验证平台给予最高不超5000万元支持
2025-05-27 20:27:49
人民呼唤DeepSeek!
2025-07-16 12:02:16
474 文章
57859 浏览
24小时热文
更多

-
2025-07-20 08:01:35
-
2025-07-19 22:57:32
-
2025-07-19 21:58:20