近日,由谢赛宁领衔的华人团队推出全新编程竞赛基准LiveCodeBench Pro,测试中顶级大模型全军覆没,无一得分。该基准题库每日更新,涵盖IOI、Codeforces和ICPC竞赛题,防止模型刷题。测试显示,模型在知识密集型和逻辑密集型问题上有一定表现,但在观察密集型问题上表现欠佳。表现最佳的模型在中等难度题上的通过率仅为53%,难题通过率为0。即使工具调用被屏蔽,顶级模型的Elo评分仍低于人类大师级水平。团队成员多为奥林匹克竞赛获奖者,超半数为华人,且团队年轻化,成员来自顶尖学府。该项目旨在持续评估大模型算法逻辑深度,每个季度将发布全新评估集。
原文链接
本文链接:https://kx.umi6.com/article/20456.html
转载请注明文章出处
相关推荐
换一换
月之暗面 Kimi 创始人杨植麟:中国技术不仅要好用还要参与制定规则,未来大模型要推出到 K100
2026-01-12 09:22:11
智谱、MiniMax争夺「大模型第一股」
2025-12-24 10:30:23
智谱中标679.8万元水电大模型项目
2025-11-05 20:23:03
全球首份大模型业绩报!MiniMax预判2026三大超级PMF,AI平台公司启程了
2026-03-03 11:54:49
腾讯宣布升级大模型研发架构 前OpenAI研究员姚顺雨任要职
2025-12-17 17:58:49
DeepSeek V3.2、GLM4.6等大模型即将发布
2025-09-29 17:14:30
全球大模型第一股要来了 智谱发布IPO招股书:代码能力并列全球第一
2025-12-19 23:17:39
1300000000000000!谷歌每月Tokens消耗量曝光(别数了是千万亿)
2025-10-11 09:26:13
消息称小米研发智能问答助手产品“Mi Chat”
2025-12-09 17:51:08
一场「狼人杀」,考倒了一堆大模型
2025-08-28 14:28:50
阿里巴巴CEO吴泳铭:大模型是下一代操作系统 AI Cloud是下一代计算机
2025-09-24 10:37:04
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
国产模型+国产芯片“蜜月期”开启!DeepSeek、智谱密集上新 华为、寒武纪芯片火速适配
2025-09-30 21:35:35
730 文章
488946 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18