阿里推出的Qwen2.5-Max在大模型竞技场榜单上超越DeepSeek-V3,以总分1332位列第七,同时超过Claude 3.5 Sonnet和Llama 3.1 405B等模型。该模型在编程和数学方面尤为突出,与满血o1及DeepSeek-R1并列第一。Chatbot Arena是全球顶级大模型的权威测试平台,Qwen2.5-Max在WebDev榜单上也进入前十。官方认为,这表明中国AI正在快速缩小差距。
网友反馈称Qwen2.5-Max表现稳定,且可能很快取代硅谷的普通模型。在具体单项能力中,Qwen2.5-Max在数学和代码任务上与满血o1及DeepSeek-R1并列第一,胜率高达69%。在复杂提示词任务中,Qwen2.5-Max表现优异,多轮对话能力和长文本处理能力同样出色。在开源基座模型对比中,Qwen2.5-Max也全面领先。
Qwen2.5-Max还展示了强大的代码生成和推理能力,例如生成一个象棋游戏和旋转球体图像,以及解决复杂的推理问题。该模型已在Qwen Chat平台上线,供免费体验。
原文链接
本文链接:https://kx.umi6.com/article/12547.html
转载请注明文章出处
相关推荐
换一换
网易《逆水寒》获国家级科技奖一等奖,AI + 游戏获国家学术认可
2025-12-01 17:24:11
AI 正降低创业门槛,15 岁高中生独立创办科技公司
2025-12-22 15:48:24
Manus救不了Meta
2026-01-08 20:35:12
Intel摆脱“AI无能”形象:股价已翻倍 与美国总统关系深厚
2026-01-18 22:48:57
长三角一体化大模型发布 AI将为区域发展提供决策支撑
2026-01-12 09:40:07
AI并非无所不能 NVIDIA黄仁勋否认神AI:还没人能创造出来
2026-01-19 21:16:46
在AI面前,人类终于不说谎了
2025-12-25 18:52:01
看完黄仁勋、苏姿丰和陈立武同台,后劲还挺大
2026-01-16 15:51:33
AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷
2025-12-15 22:02:22
用一个字,证明你不是 AI
2026-01-02 17:25:05
黄仁勋:AI将使全球GDP增长5倍 每个国家都需要打造它
2025-12-12 12:48:25
腾讯混元大模型品牌 Hunyuan 更名为 HY
2025-12-10 15:53:58
智谱AI,排名「第二」
2025-12-21 12:41:26
637 文章
446733 浏览
24小时热文
更多
-
2026-01-23 21:15:09 -
2026-01-23 21:14:01 -
2026-01-23 20:15:45