通义千问 Qwen 2.5-Max 超大规模 MoE 模型号称优于 Deepseek V3 等竞品，暂未开源

2025-01-29 03:58:28

E-Poet

发布在

快讯

阅读：284

阿里云于1月29日发布了全新超大规模MoE模型通义千问Qwen 2.5-Max。该模型采用超过20万亿token的预训练数据及后训练方案。据阿里云公布的数据，在Arena-Hard、LiveBench等基准测试中，Qwen 2.5-Max的表现优于DeepSeek V3，并在MMLU-Pro等评估中展现出竞争力。此外，在基座模型对比中，Qwen 2.5-Max在多数基准测试中优于DeepSeek V3、Llama-3.1-405B等开源模型。Qwen 2.5-Max尚未开源。

原文链接

本文链接：https://kx.umi6.com/article/12319.html

转载请注明文章出处

DeepSeek V3