2025-09-12 07:06:19
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
阅读:783
9月12日,阿里云通义团队发布下一代基础模型架构Qwen3-Next,并开源80B-A3B系列模型。新架构通过改进混合注意力机制、高稀疏度MoE结构及多token预测机制,显著提升长上下文和大规模参数下的训练与推理效率。Qwen3-Next-80B-A3B模型拥有800亿参数(激活30亿),支持262K上下文,可外推至101万tokens,性能接近或超越前代模型,而训练成本仅为十分之一,推理吞吐提升十倍以上。Instruct版在评测中接近Qwen3-235B,Thinking版在部分任务上超越Gemini-2.5-Flash-Thinking。模型权重已以Apache-2.0许可发布,可通过Hugging Face、Transformers等框架部署,同时上线第三方平台OpenRouter。
原文链接
本文链接:https://kx.umi6.com/article/25096.html
转载请注明文章出处
相关推荐
换一换
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍
2025-09-12 17:15:02
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
2025-09-12 07:06:19
佛州男子过度迷恋“AI娇妻”自杀身亡 家属起诉谷歌Gemini
2026-03-07 13:35:28
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器
2026-03-07 13:31:18
暴雪皮克斯老兵的AI社交实验:用声音匹配,MAU破260万,估值1.5亿美金
2026-03-09 13:39:33
Meta智能眼镜曝隐私风险 用户AI互动画面会被第三方查看
2026-03-06 18:26:31
央视点赞千问APP,“AI办事”让人工智能走进日常生活
2026-03-07 16:42:54
打败GPT-5.2,嵌入真实工业生产,这个大模型什么来头?
2026-03-09 16:53:38
中信证券:看好Micro LED CPO产业趋势,上游芯片环节有望深度受益
2026-03-09 09:25:49
最高法:打击滥用AI换脸等行为 斩断为电诈提供“技术助攻”的链条
2026-03-09 15:54:50
近千名爱好者在深圳腾讯大厦门口排队安装OpenClaw 今早11点预约号发放完毕
2026-03-06 17:21:47
上海人工智能实验室推出DeepLink多元算力混合推理加速方案
2026-03-09 15:53:40
MiniMax发布“龙虾”新技能:推出Voice Maker语音模型和Music Maker音乐模型
2026-03-09 16:56:53
634 文章
451539 浏览
24小时热文
更多
-
2026-03-10 10:03:26 -
2026-03-10 10:02:35 -
2026-03-10 09:02:22