2025-09-12 07:06:19
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
阅读:701
9月12日,阿里云通义团队发布下一代基础模型架构Qwen3-Next,并开源80B-A3B系列模型。新架构通过改进混合注意力机制、高稀疏度MoE结构及多token预测机制,显著提升长上下文和大规模参数下的训练与推理效率。Qwen3-Next-80B-A3B模型拥有800亿参数(激活30亿),支持262K上下文,可外推至101万tokens,性能接近或超越前代模型,而训练成本仅为十分之一,推理吞吐提升十倍以上。Instruct版在评测中接近Qwen3-235B,Thinking版在部分任务上超越Gemini-2.5-Flash-Thinking。模型权重已以Apache-2.0许可发布,可通过Hugging Face、Transformers等框架部署,同时上线第三方平台OpenRouter。
原文链接
本文链接:https://kx.umi6.com/article/25096.html
转载请注明文章出处
相关推荐
换一换
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍
2025-09-12 17:15:02
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
2025-09-12 07:06:19
Mobileye势头强劲,2025财年全年营收同比增长15%
2026-01-23 11:47:43
Node.js之父:手写代码已死
2026-01-22 14:57:11
阿里云智能集团资深副总裁李飞飞:内存价格预计还会上涨两到三倍
2026-01-22 19:09:39
百度发布文心大模型5.0正式版
2026-01-22 10:49:05
马斯克:年底将出现比人类更聪明的AI 能源是AI最大限制因素
2026-01-23 10:47:05
打造金融机构的AI操作系统 2026金融行业钉峰会在郑州圆满举行
2026-01-23 18:09:30
英特尔CEO陈立武:AI需求强劲 对未能完全满足市场需求感到遗憾
2026-01-23 11:53:08
轻舟智航重回高端局: L2+量产超百万,城市NOA量产下放10万级
2026-01-23 21:14:01
国家知识产权局:我国人工智能专利有效量居全球前列
2026-01-23 10:49:16
超600家上市公司预告2025年业绩 新兴产业增势亮眼
2026-01-22 06:40:59
抢内存条堪比抢黄金,囤内存条真是好的理财方式吗?
2026-01-24 01:23:32
601 文章
403809 浏览
24小时热文
更多
-
2026-01-24 01:23:32 -
2026-01-24 00:23:19 -
2026-01-23 22:19:57