近日,由谢赛宁领衔的华人团队推出全新编程竞赛基准LiveCodeBench Pro,测试中顶级大模型全军覆没,无一得分。该基准题库每日更新,涵盖IOI、Codeforces和ICPC竞赛题,防止模型刷题。测试显示,模型在知识密集型和逻辑密集型问题上有一定表现,但在观察密集型问题上表现欠佳。表现最佳的模型在中等难度题上的通过率仅为53%,难题通过率为0。即使工具调用被屏蔽,顶级模型的Elo评分仍低于人类大师级水平。团队成员多为奥林匹克竞赛获奖者,超半数为华人,且团队年轻化,成员来自顶尖学府。该项目旨在持续评估大模型算法逻辑深度,每个季度将发布全新评估集。
原文链接
本文链接:https://kx.umi6.com/article/20456.html
转载请注明文章出处
相关推荐
换一换
杨植麟当主持人的大模型圆桌:张鹏罗福莉夏立雪都放开说了
2026-03-27 23:23:11
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025-12-04 12:18:33
阿里千问大模型换将,32岁林俊旸官宣告别
2026-03-04 10:27:38
腾讯发布全新大模型混元3D 3.0
2025-09-16 10:11:57
Manus救不了Meta
2026-01-08 20:35:12
杭州“十五五”规划建议:实施大模型前沿技术攻关和高端芯片、基础软件、模型算法等研发计划 建设人工智能开源社区
2026-01-16 11:34:57
持续霸榜!阿里千问3.6Plus问鼎全球大模型调用周榜冠军
2026-04-07 12:52:26
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
美图吴欣鸿回应大模型竞争:美图应用数据仍在快速增长
2026-02-05 18:05:31
大模型收入暴涨1076%,港股AGI第一股首份年报:一年狂揽12亿,属实把商业化玩明白了
2026-03-27 17:08:13
长三角一体化大模型发布 AI将为区域发展提供决策支撑
2026-01-12 09:40:07
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
豆包大模型2.0正式发布
2026-02-14 14:23:01
764 文章
573457 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38