ScienceQA - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Grok-4登顶，Kimi K2非思考模型SOTA

2025年7月，AI大模型领域迎来新进展。xAI于7月10日发布Grok-4，登顶ScienceQA评测集，得分65.0，超越前代及OpenAI的o3模型，成为SOTA模型，性能与成本优势显著。Moonshot AI于7月11日推出开源Kimi K2模型，参数量达1万亿，在Non-Thinking模式中表现最佳，BoN得分73.0。此外，OpenAI的o3-pro、Google的Gemini 2.5 Pro等主流模型均更新版本，性能小幅提升但成本增加。xbench最新榜单显示，国产模型如DeepSeek、Doubao-Seed-1.6和Kimi K2在性价比和能力上表现出色，为开发者提供更多选择。整体来看，推理模型趋向高分高成本，而部分模型在性能与延迟间实现平衡。更多实时信息可关注xbench.org。

原文链接