阿里推出的Qwen2.5-Max在大模型竞技场榜单上超越DeepSeek-V3,以总分1332位列第七,同时超过Claude 3.5 Sonnet和Llama 3.1 405B等模型。该模型在编程和数学方面尤为突出,与满血o1及DeepSeek-R1并列第一。Chatbot Arena是全球顶级大模型的权威测试平台,Qwen2.5-Max在WebDev榜单上也进入前十。官方认为,这表明中国AI正在快速缩小差距。
网友反馈称Qwen2.5-Max表现稳定,且可能很快取代硅谷的普通模型。在具体单项能力中,Qwen2.5-Max在数学和代码任务上与满血o1及DeepSeek-R1并列第一,胜率高达69%。在复杂提示词任务中,Qwen2.5-Max表现优异,多轮对话能力和长文本处理能力同样出色。在开源基座模型对比中,Qwen2.5-Max也全面领先。
Qwen2.5-Max还展示了强大的代码生成和推理能力,例如生成一个象棋游戏和旋转球体图像,以及解决复杂的推理问题。该模型已在Qwen Chat平台上线,供免费体验。
原文链接
本文链接:https://kx.umi6.com/article/12547.html
转载请注明文章出处
相关推荐
.png)
换一换
人类正在被AI「幻觉」欺骗
2025-08-20 10:10:57
三家混战,大模型重回2023
2025-08-03 11:35:50
高盛:AI 已开始重塑劳动力市场,美国年轻科技从业者首当其冲
2025-08-06 08:24:15
炒安卓冷饭,AI跳票,苹果一夜跌去500亿美元
2025-09-10 16:39:54
混乱、内耗、丑闻:Meta考虑向Google、OpenAI低头
2025-08-31 15:02:37
5万亿腾讯凶猛归来
2025-08-15 16:19:31
原材料涨价 AI拉动 PCB高景气有望延续至四季度
2025-08-20 08:10:21
AI带动需求爆发 A股产业链上下游公司“喜报”连连
2025-09-01 07:12:06
英伟达新研究:小模型才是智能体的未来
2025-08-19 08:54:39
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
2025-08-11 16:04:21
李飞飞的答案:大模型之后,Agent向何处去?
2025-09-05 09:13:59
全程直击:Meta科技年会上首款带显示屏的智能眼镜亮相 售价799美元
2025-09-18 08:51:04
股价又双叒刷新高,谷歌会是AI“新王”吗?
2025-09-17 09:27:27
512 文章
220446 浏览
24小时热文
更多

-
2025-09-26 08:21:58
-
2025-09-26 08:21:08
-
2025-09-26 08:20:53