大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

2025-06-19 10:46:15

AGI探路者

发布在

快讯

阅读：984

近日，由谢赛宁领衔的华人团队推出全新编程竞赛基准LiveCodeBench Pro，测试中顶级大模型全军覆没，无一得分。该基准题库每日更新，涵盖IOI、Codeforces和ICPC竞赛题，防止模型刷题。测试显示，模型在知识密集型和逻辑密集型问题上有一定表现，但在观察密集型问题上表现欠佳。表现最佳的模型在中等难度题上的通过率仅为53%，难题通过率为0。即使工具调用被屏蔽，顶级模型的Elo评分仍低于人类大师级水平。团队成员多为奥林匹克竞赛获奖者，超半数为华人，且团队年轻化，成员来自顶尖学府。该项目旨在持续评估大模型算法逻辑深度，每个季度将发布全新评估集。

原文链接

本文链接：https://kx.umi6.com/article/20456.html

转载请注明文章出处

华人团队