2025-09-12 07:06:19
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
阅读:864
9月12日,阿里云通义团队发布下一代基础模型架构Qwen3-Next,并开源80B-A3B系列模型。新架构通过改进混合注意力机制、高稀疏度MoE结构及多token预测机制,显著提升长上下文和大规模参数下的训练与推理效率。Qwen3-Next-80B-A3B模型拥有800亿参数(激活30亿),支持262K上下文,可外推至101万tokens,性能接近或超越前代模型,而训练成本仅为十分之一,推理吞吐提升十倍以上。Instruct版在评测中接近Qwen3-235B,Thinking版在部分任务上超越Gemini-2.5-Flash-Thinking。模型权重已以Apache-2.0许可发布,可通过Hugging Face、Transformers等框架部署,同时上线第三方平台OpenRouter。
原文链接
本文链接:https://kx.umi6.com/article/25096.html
转载请注明文章出处
相关推荐
换一换
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍
2025-09-12 17:15:02
独家|黑湖科技完成近10亿元D轮融资
2026-04-23 08:59:12
国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家
2026-04-23 23:33:29
联通在线申请注册呦爱机器人商标
2026-04-24 13:14:01
横店影视:将向“以IP为核心的全链路运营模式”转型升级
2026-04-23 15:14:07
AI太烧钱!Meta裁员8000人再冻6000职位
2026-04-24 16:19:57
仅靠219个字!AI耗时12小时设计出完整CPU:传统研发需18-36个月
2026-04-24 17:26:33
英伟达参投Vast Data新一轮融资 估值升至300亿美元
2026-04-23 06:52:02
谷歌:目前谷歌所有新代码中 75%由人工智能生成
2026-04-22 20:28:17
谷歌发布一系列新AI工具
2026-04-22 21:32:58
PPIO首批上线DeepSeek-V4预览版,1M超长上下文能力开箱即用
2026-04-24 17:23:07
贝莱德全球首席投资策略师称在人工智能热潮中看好半导体和硬件股
2026-04-24 23:43:31
挖漏洞何必Mythos,国产智能体早跑通了
2026-04-23 08:53:48
657 文章
528227 浏览
24小时热文
更多
-
2026-04-25 00:42:43 -
2026-04-24 23:43:31 -
2026-04-24 23:42:26