2025年7月,AI大模型领域迎来新进展。xAI于7月10日发布Grok-4,登顶ScienceQA评测集,得分65.0,超越前代及OpenAI的o3模型,成为SOTA模型,性能与成本优势显著。Moonshot AI于7月11日推出开源Kimi K2模型,参数量达1万亿,在Non-Thinking模式中表现最佳,BoN得分73.0。此外,OpenAI的o3-pro、Google的Gemini 2.5 Pro等主流模型均更新版本,性能小幅提升但成本增加。xbench最新榜单显示,国产模型如DeepSeek、Doubao-Seed-1.6和Kimi K2在性价比和能力上表现出色,为开发者提供更多选择。整体来看,推理模型趋向高分高成本,而部分模型在性能与延迟间实现平衡。更多实时信息可关注xbench.org。
原文链接
本文链接:https://kx.umi6.com/article/21986.html
转载请注明文章出处
相关推荐
.png)
换一换
大模型测试题爆火,GPT-4和Claude3都跪了,LeCun转发:新Benchmark
2024-06-26 00:27:39
智谱智能体平台登陆三星手机
2025-02-11 20:05:24
最强开源短剧创作模型来了!33种表情、400种肢体动作,好莱坞级AI导演监制
2025-02-20 11:08:49
417 文章
56091 浏览
24小时热文
更多

-
2025-07-18 16:45:00
-
2025-07-18 16:44:49
-
2025-07-18 16:43:52