在最近的一项基准测试中,7个AI模型进行了210场狼人杀游戏,GPT-5以96.7%的胜率断崖式领先,展现卓越的操纵与防御能力。国产模型Qwen3和Kimi-K2分别位列第4和第6,其中Kimi-K2表现出大胆激进的风格,甚至通过‘悍跳’扭转局势。测试通过Elo评分和多项指标量化模型表现,揭示了强弱模型间的显著差异。此外,GPT-5在其他基准测试中也大幅超越GPT-4,例如在Level 5 MATH上得分从23%提升至98%。研究指出,该测试不仅评估AI解决逻辑问题的能力,还探索其在社交动态中的行为模式,为未来复杂社会互动模拟奠定基础。目前,团队正寻求合作以扩展研究规模。
原文链接
本文链接:https://kx.umi6.com/article/24602.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI 宣布 ChatGPT-4o 面向 Plus 和 Team 用户重新上线,下周推出迷你版 GPT-5
2025-08-09 16:33:15
GPT-5深夜炸场!微软抢先集成 机构看好AI编程加速发展
2025-08-08 10:09:45
OpenAI 奥尔特曼:GPT-5 有点搞砸了,未来公司 CEO 或是 AI
2025-08-17 16:39:08
首个接入GPT-5的视频Agent!一句话生成广告大片,分镜配音全包了
2025-08-26 16:47:05
OpenAI惊人自曝:GPT-5真「降智」了!但重现「神之一手」,剑指代码王座
2025-08-11 15:02:10
GPT-5为什么没有带来更多惊喜?
2025-08-10 14:47:11
GPT-5发布了,到底有没有那么神?
2025-08-08 09:10:02
OpenAI的“新突破”:通用验证器
2025-08-05 15:19:39
GPT-5 的难产内幕
2025-08-02 22:26:38
深聊GPT-5发布:过度营销的反噬与AI技术困局
2025-08-12 12:16:52
OpenAI 迄今最智能 AI 模型:“六边形战士”GPT-5 登场,准确性、速度、推理能力等全面突破
2025-08-08 01:59:39
GPT-5快抢走打工人饭碗了
2025-08-08 07:03:43
GPT-5能让普通人变成博士,但魔法依旧没有
2025-08-08 12:10:14
491 文章
166515 浏览
24小时热文
更多

-
2025-09-03 12:45:43
-
2025-09-03 12:44:37
-
2025-09-03 11:44:20