阿里推出的Qwen2.5-Max在大模型竞技场榜单上超越DeepSeek-V3,以总分1332位列第七,同时超过Claude 3.5 Sonnet和Llama 3.1 405B等模型。该模型在编程和数学方面尤为突出,与满血o1及DeepSeek-R1并列第一。Chatbot Arena是全球顶级大模型的权威测试平台,Qwen2.5-Max在WebDev榜单上也进入前十。官方认为,这表明中国AI正在快速缩小差距。
网友反馈称Qwen2.5-Max表现稳定,且可能很快取代硅谷的普通模型。在具体单项能力中,Qwen2.5-Max在数学和代码任务上与满血o1及DeepSeek-R1并列第一,胜率高达69%。在复杂提示词任务中,Qwen2.5-Max表现优异,多轮对话能力和长文本处理能力同样出色。在开源基座模型对比中,Qwen2.5-Max也全面领先。
Qwen2.5-Max还展示了强大的代码生成和推理能力,例如生成一个象棋游戏和旋转球体图像,以及解决复杂的推理问题。该模型已在Qwen Chat平台上线,供免费体验。
原文链接
本文链接:https://kx.umi6.com/article/12547.html
转载请注明文章出处
相关推荐
换一换
伦敦市长警告:若放任 AI 失控发展,就业环境恐被大规模摧毁
2026-01-19 08:21:30
AI引爆存储芯片涨价潮 三星Q4营业利润有望飙升160%
2026-01-06 17:21:27
阶跃星辰杀入季后赛,强势跻身AI“新六小虎”第一梯队
2026-02-27 15:48:37
备案平均时长缩至2个月 目前已有216款大模型在京完成备案
2026-02-28 19:46:01
中信建投:预计由AI等带来的光纤需求将持续较快增长
2026-01-29 08:05:48
卓世科技,股改完成!
2026-01-05 15:08:15
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026-02-05 08:39:59
厂二代接班的底气,是AI给的?
2026-01-21 12:03:59
Manus补上一块短板,但Meta AI的短板实在太多了
2026-01-02 18:29:42
一口气集齐老黄苏妈英特尔,还得是AI,还得是联想
2026-01-09 15:20:54
黄仁勋驳斥AI取代软件论 称其“不合逻辑”
2026-02-04 17:59:05
马化腾:腾讯唯一花钱投入比较多的就是AI
2026-01-26 17:21:55
AMD 苏姿丰:AI 既不是炒作也不是泡沫,到 2031 年将有 50 亿人使用
2026-01-08 10:01:41
658 文章
488453 浏览
24小时热文
更多
-
2026-03-10 15:27:19 -
2026-03-10 14:26:31 -
2026-03-10 14:26:03