3月22日消息,一名名叫阿迪·辛格的外国高三学生创建了AI评测网站MC-Bench,利用微软沙盒游戏《我的世界》作为测试平台。该网站通过让不同AI基于相同提示生成建筑作品,并由用户投票选出更优秀的作品,以此评估AI能力。辛格表示,《我的世界》因其广为人知的风格和视觉效果,能够直观展示AI进步。目前,Anthropic、谷歌、OpenAI和阿里巴巴为该项目提供AI计算资源支持。尽管测试仍较基础,主要观察GPT-3以来AI的进步,但未来可能扩展至更复杂任务。MC-Bench采用编程基准测试方式,AI需编写代码生成作品,而用户更倾向于通过最终成果评判表现。辛格认为,这些数据对AI开发者具有重要参考价值,尽管其是否能完全反映实际应用价值尚存争议。
原文链接
本文链接:https://kx.umi6.com/article/15948.html
转载请注明文章出处
相关推荐
换一换
把 AI 放进《我的世界》服务器:GPT-4o 杀牛宰羊,Claude3.5 把家拆了
2024-10-21 13:29:28
开源AI新王被指造假,不要迷信大模型的榜单了
2024-09-11 20:33:28
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025-12-04 12:18:33
Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B
2024-09-11 12:24:53
首发全面搭载鸿蒙5!华为Pura X斩获中国电信AI社交、AI学习评测双第一
2025-05-18 10:19:18
具身智能领域首个行业标准正式发布
2026-03-26 22:25:30
OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩
2025-04-21 09:34:53
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
2025-05-29 15:34:10
谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”
2024-12-18 14:32:52
仅仅一天,Gemini就夺回了GPT-4o拿走的头名
2024-11-22 17:08:30
多项力压 Grok 4、OpenAI o3,谷歌推出 Gemini 2.5 Deep Think 模型
2025-08-01 23:08:15
AI“推理”模型兴起,基准测试成本飙升
2025-04-13 10:34:23
OpenAI o3 模型基准测试成绩遭质疑,实测分数远不及宣称
2025-04-21 08:32:30
803 文章
717804 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41