混合注意力机制

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

实测！Qwen下一代基础架构突袭！秒解AIME数学竞赛题，提速10倍+性价比提升10倍

2025年9月，Qwen团队发布下一代模型架构Qwen3-Next，称为Qwen3.5的抢先预览版。新模型引入四大核心改进：混合注意力机制、高稀疏度MoE结构、稳定性优化和多token预测机制，性能显著提升。Qwen3-Next-80B-A3B系列在训练成本仅为Qwen3-32B十分之一的情况下，推理吞吐量提升10倍以上，并在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。实测显示，该模型可秒解AIME数学竞赛题并支持多模态任务。此外，模型已开源，用户可通过魔搭社区、抱抱脸及阿里云API免费体验或调用服务。

原文链接

跨界思维

09-12 17:15:02

Qwen3-Next

推理效率

混合注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列：改进混合注意力机制、高稀疏度 MoE 结构

9月12日，阿里云通义团队发布下一代基础模型架构Qwen3-Next，并开源80B-A3B系列模型。新架构通过改进混合注意力机制、高稀疏度MoE结构及多token预测机制，显著提升长上下文和大规模参数下的训练与推理效率。Qwen3-Next-80B-A3B模型拥有800亿参数（激活30亿），支持262K上下文，可外推至101万tokens，性能接近或超越前代模型，而训练成本仅为十分之一，推理吞吐提升十倍以上。Instruct版在评测中接近Qwen3-235B，Thinking版在部分任务上超越Gemini-2.5-Flash-Thinking。模型权重已以Apache-2.0许可发布，可通过Hugging Face、Transformers等框架部署，同时上线第三方平台OpenRouter。

原文链接