阿里推出的Qwen2.5-Max在大模型竞技场榜单上超越DeepSeek-V3,以总分1332位列第七,同时超过Claude 3.5 Sonnet和Llama 3.1 405B等模型。该模型在编程和数学方面尤为突出,与满血o1及DeepSeek-R1并列第一。Chatbot Arena是全球顶级大模型的权威测试平台,Qwen2.5-Max在WebDev榜单上也进入前十。官方认为,这表明中国AI正在快速缩小差距。
网友反馈称Qwen2.5-Max表现稳定,且可能很快取代硅谷的普通模型。在具体单项能力中,Qwen2.5-Max在数学和代码任务上与满血o1及DeepSeek-R1并列第一,胜率高达69%。在复杂提示词任务中,Qwen2.5-Max表现优异,多轮对话能力和长文本处理能力同样出色。在开源基座模型对比中,Qwen2.5-Max也全面领先。
Qwen2.5-Max还展示了强大的代码生成和推理能力,例如生成一个象棋游戏和旋转球体图像,以及解决复杂的推理问题。该模型已在Qwen Chat平台上线,供免费体验。
原文链接
本文链接:https://kx.umi6.com/article/12547.html
转载请注明文章出处
相关推荐
.png)
换一换
这个AI能救命!提前6个月发现胃癌病灶,突破医学影像认知,达摩院做成了
2025-06-25 13:29:56
NVIDIA CEO黄仁勋奔波中美两国!为了AI 为了造福全人类
2025-07-15 14:45:42
上海累计82款大模型通过备案
2025-07-10 11:28:53
436 文章
75368 浏览
24小时热文
更多

-
2025-07-19 15:54:36
-
2025-07-19 15:54:26
-
2025-07-19 14:57:21