近日,由谢赛宁领衔的华人团队推出全新编程竞赛基准LiveCodeBench Pro,测试中顶级大模型全军覆没,无一得分。该基准题库每日更新,涵盖IOI、Codeforces和ICPC竞赛题,防止模型刷题。测试显示,模型在知识密集型和逻辑密集型问题上有一定表现,但在观察密集型问题上表现欠佳。表现最佳的模型在中等难度题上的通过率仅为53%,难题通过率为0。即使工具调用被屏蔽,顶级模型的Elo评分仍低于人类大师级水平。团队成员多为奥林匹克竞赛获奖者,超半数为华人,且团队年轻化,成员来自顶尖学府。该项目旨在持续评估大模型算法逻辑深度,每个季度将发布全新评估集。
原文链接
本文链接:https://kx.umi6.com/article/20456.html
转载请注明文章出处
相关推荐
换一换
2025最大赌注:为什么所有厂商都押宝AI手机?
2025-12-25 09:25:38
长三角一体化大模型发布 AI将为区域发展提供决策支撑
2026-01-12 09:40:07
百度世界2025将于11月13日在北京举办
2025-10-13 20:03:11
Kimi春节档挣超一年钱!这口“龙虾肉”大厂开始抢吃了
2026-02-26 01:05:27
MiniMax M3一手实测:老黄PPT上74个Logo,我以为能难住它
2026-06-03 00:53:27
美团内测万亿级新一代大模型,全程基于国产算力集群训练
2026-04-24 12:12:33
美图吴欣鸿回应大模型竞争:美图应用数据仍在快速增长
2026-02-05 18:05:31
李开复任命三位新高管:零一万物的“一把手工程”与大模型中场战事
2025-10-27 13:00:52
阿里字节腾讯,集体重仓新风口
2025-10-17 14:18:54
独家|百度成立模型委员会(BMC) 加强人工智能技术优势
2026-05-15 10:39:37
大模型驱动算力革命 AI芯片迎破局新机遇
2025-09-18 07:47:51
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这
2025-12-11 15:57:49
中国中文信息学会2025学术年会暨第二届中国大模型大会(CIPS & CLM 2025)于10月28日在北京盛大开幕
2025-10-30 18:52:50
787 文章
659183 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41