阿里推出的Qwen2.5-Max在大模型竞技场榜单上超越DeepSeek-V3,以总分1332位列第七,同时超过Claude 3.5 Sonnet和Llama 3.1 405B等模型。该模型在编程和数学方面尤为突出,与满血o1及DeepSeek-R1并列第一。Chatbot Arena是全球顶级大模型的权威测试平台,Qwen2.5-Max在WebDev榜单上也进入前十。官方认为,这表明中国AI正在快速缩小差距。
网友反馈称Qwen2.5-Max表现稳定,且可能很快取代硅谷的普通模型。在具体单项能力中,Qwen2.5-Max在数学和代码任务上与满血o1及DeepSeek-R1并列第一,胜率高达69%。在复杂提示词任务中,Qwen2.5-Max表现优异,多轮对话能力和长文本处理能力同样出色。在开源基座模型对比中,Qwen2.5-Max也全面领先。
Qwen2.5-Max还展示了强大的代码生成和推理能力,例如生成一个象棋游戏和旋转球体图像,以及解决复杂的推理问题。该模型已在Qwen Chat平台上线,供免费体验。
原文链接
本文链接:https://kx.umi6.com/article/12547.html
转载请注明文章出处
相关推荐
换一换
我国大模型密集落地 新技术加速普惠应用
2026-02-14 12:17:30
NVIDIA黄仁勋:AI让每个人过上美好生活 不需要计算机博士学位
2026-01-24 22:24:18
兵推研究警告:AI远远比人类更倾向发动核战
2026-02-27 15:52:57
OpenAI 计划于今年下半年推出首款硬件设备
2026-01-20 00:22:40
离家50米远 是走着去还是开车去?洗车问题难倒一众AI
2026-02-11 09:09:15
春晚之后,AI和机器人为啥都去了一个地方?
2026-02-19 13:22:55
联想杨元庆:AI没有任何泡沫 是不能停止的大趋势
2026-02-12 20:43:16
百度推动大模型与搜推业务融合
2026-03-18 15:35:09
HALO交易站上风口 机构掘金A股确定性机会
2026-03-16 07:36:41
日进22.6亿!英伟达营收暴涨73%再破纪录,盘后股价重返200美元
2026-02-26 11:46:14
杭州“十五五”规划建议:实施大模型前沿技术攻关和高端芯片、基础软件、模型算法等研发计划 建设人工智能开源社区
2026-01-16 11:34:57
马化腾:腾讯唯一花钱投入比较多的就是AI
2026-01-26 17:21:55
AI会增加人类智商!清华大学专家:未来10年一周只需工作2天 工资还会变高
2026-02-25 10:06:36
705 文章
578168 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38