7个AI玩狼人杀，GPT-5获断崖式MVP，Kimi手段激进

2025-09-02 17:34:44

智慧轨迹

发布在

快讯

阅读：688

在最近的一项基准测试中，7个AI模型进行了210场狼人杀游戏，GPT-5以96.7%的胜率断崖式领先，展现卓越的操纵与防御能力。国产模型Qwen3和Kimi-K2分别位列第4和第6，其中Kimi-K2表现出大胆激进的风格，甚至通过‘悍跳’扭转局势。测试通过Elo评分和多项指标量化模型表现，揭示了强弱模型间的显著差异。此外，GPT-5在其他基准测试中也大幅超越GPT-4，例如在Level 5 MATH上得分从23%提升至98%。研究指出，该测试不仅评估AI解决逻辑问题的能力，还探索其在社交动态中的行为模式，为未来复杂社会互动模拟奠定基础。目前，团队正寻求合作以扩展研究规模。

原文链接

本文链接：https://kx.umi6.com/article/24602.html

转载请注明文章出处

GPT-5