近日,由谢赛宁领衔的华人团队推出全新编程竞赛基准LiveCodeBench Pro,测试中顶级大模型全军覆没,无一得分。该基准题库每日更新,涵盖IOI、Codeforces和ICPC竞赛题,防止模型刷题。测试显示,模型在知识密集型和逻辑密集型问题上有一定表现,但在观察密集型问题上表现欠佳。表现最佳的模型在中等难度题上的通过率仅为53%,难题通过率为0。即使工具调用被屏蔽,顶级模型的Elo评分仍低于人类大师级水平。团队成员多为奥林匹克竞赛获奖者,超半数为华人,且团队年轻化,成员来自顶尖学府。该项目旨在持续评估大模型算法逻辑深度,每个季度将发布全新评估集。
原文链接
本文链接:https://kx.umi6.com/article/20456.html
转载请注明文章出处
相关推荐
换一换
ToC智能体火得快,但更大的价值在企业丨中关村科金@MEET2026
2025-12-12 14:53:17
李彦宏:百度下一代旗舰大模型研发中 会在准备就绪后尽快发布
2025-08-20 21:19:28
智谱AI,排名「第二」
2025-12-21 12:41:26
智谱中标679.8万元水电大模型项目
2025-11-05 20:23:03
中信建投:持续推荐AI算力板块
2025-10-28 08:39:40
消息称小米研发智能问答助手产品“Mi Chat”
2025-12-09 17:51:08
大模型产生幻觉,全怪人类PUA吗?
2025-09-10 15:36:03
豆包们,开始「上链接」
2025-10-27 10:54:08
刚刚,智谱港交所敲钟!市值528亿港元
2026-01-08 11:04:01
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
OpenAI的命门,决定了大模型公司的未来
2025-09-03 14:48:12
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这
2025-12-11 15:57:49
中国企业调用大模型日均超10万亿Tokens
2025-09-01 12:17:48
697 文章
435220 浏览
24小时热文
更多
-
2026-01-23 21:15:09 -
2026-01-23 21:14:01 -
2026-01-23 20:15:45