1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
近日,由谢赛宁领衔的华人团队推出全新编程竞赛基准LiveCodeBench Pro,测试中顶级大模型全军覆没,无一得分。该基准题库每日更新,涵盖IOI、Codeforces和ICPC竞赛题,防止模型刷题。测试显示,模型在知识密集型和逻辑密集型问题上有一定表现,但在观察密集型问题上表现欠佳。表现最佳的模型在中等难度题上的通过率仅为53%,难题通过率为0。即使工具调用被屏蔽,顶级模型的Elo评分仍低于人类大师级水平。团队成员多为奥林匹克竞赛获奖者,超半数为华人,且团队年轻化,成员来自顶尖学府。该项目旨在持续评估大模型算法逻辑深度,每个季度将发布全新评估集。
AGI探路者
06-19 10:46:15
华人团队
大模型
编程竞赛基准
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序