2025-09-12 07:06:19
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
阅读:51
9月12日,阿里云通义团队发布下一代基础模型架构Qwen3-Next,并开源80B-A3B系列模型。新架构通过改进混合注意力机制、高稀疏度MoE结构及多token预测机制,显著提升长上下文和大规模参数下的训练与推理效率。Qwen3-Next-80B-A3B模型拥有800亿参数(激活30亿),支持262K上下文,可外推至101万tokens,性能接近或超越前代模型,而训练成本仅为十分之一,推理吞吐提升十倍以上。Instruct版在评测中接近Qwen3-235B,Thinking版在部分任务上超越Gemini-2.5-Flash-Thinking。模型权重已以Apache-2.0许可发布,可通过Hugging Face、Transformers等框架部署,同时上线第三方平台OpenRouter。
原文链接
本文链接:https://kx.umi6.com/article/25096.html
转载请注明文章出处
相关推荐
.png)
换一换
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
2025-09-12 07:06:19
摩根士丹利:美国投资者对中国市场兴趣升至三年高位
2025-09-11 14:00:06
宇树科技王兴兴:让AI干活领域仍是荒漠 正处于爆发式增长前夜
2025-09-11 11:55:15
马斯克震撼预言:到2030年,AI将比所有人类加起来都聪明!
2025-09-11 11:54:09
阿里云创始人王坚:人工智能时代将带来“计算卫星”
2025-09-11 15:59:12
开源即登顶!文心思考模型ERNIE-4.5-21B-A3B-Thinking登顶HuggingFace全球模型趋势榜
2025-09-11 19:00:17
4年投资额飙升5倍 AI能耗推高核聚变投资热度 科技巨头和资本加码布局
2025-09-11 18:06:58
AI药物开发商Absci与甲骨文和AMD达成合作
2025-09-11 22:04:34
财跃星辰携四大成果亮相外滩大会,以AI创新重塑金融科技新图景
2025-09-11 21:02:07
AI训推一体机销售火热 市场前景被看好
2025-09-11 08:54:34
谁在暗中驯化大模型?
2025-09-11 18:02:02
洞见AI未来,图灵奖得主、王兴兴等发声!|直击2025外滩大会
2025-09-11 22:02:35
跨越语种障碍,YouTube 全面上线视频多语言配音功能
2025-09-11 23:05:08
481 文章
173269 浏览
24小时热文
更多

-
2025-09-12 09:11:35
-
2025-09-12 09:11:24
-
2025-09-12 09:10:29