2025-09-12 07:06:19
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
阅读:701
9月12日,阿里云通义团队发布下一代基础模型架构Qwen3-Next,并开源80B-A3B系列模型。新架构通过改进混合注意力机制、高稀疏度MoE结构及多token预测机制,显著提升长上下文和大规模参数下的训练与推理效率。Qwen3-Next-80B-A3B模型拥有800亿参数(激活30亿),支持262K上下文,可外推至101万tokens,性能接近或超越前代模型,而训练成本仅为十分之一,推理吞吐提升十倍以上。Instruct版在评测中接近Qwen3-235B,Thinking版在部分任务上超越Gemini-2.5-Flash-Thinking。模型权重已以Apache-2.0许可发布,可通过Hugging Face、Transformers等框架部署,同时上线第三方平台OpenRouter。
原文链接
本文链接:https://kx.umi6.com/article/25096.html
转载请注明文章出处
相关推荐
换一换
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍
2025-09-12 17:15:02
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
2025-09-12 07:06:19
头号重仓股易主 公募持续掘金AI主线
2026-01-23 06:34:26
智谱 GLM Coding Plan 官宣暂时限售:1 月 23 日开启,每日 10:00 刷新额度
2026-01-21 15:16:40
农业农村部:将持续推动人工智能等在农业领域应用
2026-01-22 11:51:14
中国电信等在天津成立低空量子网络科技发展公司
2026-01-23 10:50:21
欧盟提出《数字网络法案》拟统一网络连接规则
2026-01-21 19:24:13
石油巨头沙特阿美借 AI 降本增效,2025 年技术应用价值预计达 30-50 亿美元
2026-01-21 16:19:39
2026 年 AI 行业的真正瓶颈不是模型?
2026-01-21 13:12:13
57.1%的人分不清真假!Runway新视频模型太爆炸
2026-01-22 14:56:01
微软CEO:AI时代的核心不是“单一模型” 而是“模型编排与算力工厂”
2026-01-21 17:23:41
摩尔线程携手硅基流动实现DeepSeek-V3大模型高性能推理
2026-01-21 20:31:18
贝莱德CEO称人工智能领域不存在泡沫
2026-01-22 23:18:34
601 文章
403273 浏览
24小时热文
更多
-
2026-01-23 10:51:27 -
2026-01-23 10:50:21 -
2026-01-23 10:49:16