1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

近日,由谢赛宁领衔的华人团队推出全新编程竞赛基准LiveCodeBench Pro,测试中顶级大模型全军覆没,无一得分。该基准题库每日更新,涵盖IOI、Codeforces和ICPC竞赛题,防止模型刷题。测试显示,模型在知识密集型和逻辑密集型问题上有一定表现,但在观察密集型问题上表现欠佳。表现最佳的模型在中等难度题上的通过率仅为53%,难题通过率为0。即使工具调用被屏蔽,顶级模型的Elo评分仍低于人类大师级水平。团队成员多为奥林匹克竞赛获奖者,超半数为华人,且团队年轻化,成员来自顶尖学府。该项目旨在持续评估大模型算法逻辑深度,每个季度将发布全新评估集。

原文链接
本文链接:https://kx.umi6.com/article/20456.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
我国首个发电行业大模型“擎源”发布,模型参数达千亿级别
2025-06-28 20:23:24
国产大模型高考裸分683:选清华 还是北大
2025-06-27 17:18:09
2025WAIC:大厂回归,医疗AI爆火出圈
2025-07-30 15:47:42
当AI智能体走进诊室,大模型如何颠覆医疗?
2025-07-30 13:48:25
一只猫就能让最强AI 答错题,Deepseek 也翻车,猫怎么成了大模型“天敌”?
2025-07-07 21:39:02
大模型参与推理崩溃论战!从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」
2025-06-20 18:02:43
Scaling Law再遭质疑:“退化式AI”竟成终局?
2025-08-04 21:03:25
从黑箱到显微镜:大模型可解释性的现状与未来
2025-06-17 18:41:56
大模型套壳往事
2025-07-14 18:26:03
商汤需要「网感」
2025-07-09 13:03:03
大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案
2025-07-20 16:05:44
大模型首次直接理解代码图:不用Agent修bug,登顶SWE-Bench开源榜
2025-06-27 15:08:34
亚马逊云科技大中华区总裁储瑞松:Agentic AI处于爆发前夜
2025-06-19 10:49:07
24小时热文
更多
扫一扫体验小程序