1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍
2025年9月,Qwen团队发布下一代模型架构Qwen3-Next,称为Qwen3.5的抢先预览版。新模型引入四大核心改进:混合注意力机制、高稀疏度MoE结构、稳定性优化和多token预测机制,性能显著提升。Qwen3-Next-80B-A3B系列在训练成本仅为Qwen3-32B十分之一的情况下,推理吞吐量提升10倍以上,并在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。实测显示,该模型可秒解AIME数学竞赛题并支持多模态任务。此外,模型已开源,用户可通过魔搭社区、抱抱脸及阿里云API免费体验或调用服务。
跨界思维
09-12 17:15:02
Qwen3-Next
推理效率
混合注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
9月12日,阿里云通义团队发布下一代基础模型架构Qwen3-Next,并开源80B-A3B系列模型。新架构通过改进混合注意力机制、高稀疏度MoE结构及多token预测机制,显著提升长上下文和大规模参数下的训练与推理效率。Qwen3-Next-80B-A3B模型拥有800亿参数(激活30亿),支持262K上下文,可外推至101万tokens,性能接近或超越前代模型,而训练成本仅为十分之一,推理吞吐提升十倍以上。Instruct版在评测中接近Qwen3-235B,Thinking版在部分任务上超越Gemini-2.5-Flash-Thinking。模型权重已以Apache-2.0许可发布,可通过Hugging Face、Transformers等框架部署,同时上线第三方平台OpenRouter。
Journeyman
09-12 07:06:19
混合注意力机制
通义Qwen3-Next
高稀疏度MoE结构
分享至
打开微信扫一扫
内容投诉
生成图片
阿里巴巴推出Qwen3-Next人工智能模型
9月12日,阿里巴巴通义千问发布下一代基础模型架构Qwen3-Next,并开源了基于该架构的Qwen3-Next-80B-A3B系列模型。相比前代Qwen3的MoE模型结构,新架构进行了多项核心改进,包括混合注意力机制、高稀疏度MoE结构、训练稳定性优化以及多token预测机制,以提升推理效率。这一发布标志着阿里巴巴在人工智能领域的持续创新与开源贡献,为开发者和研究者提供了更强大的工具支持。
虚拟微光
09-12 03:04:56
Qwen3-Next
人工智能模型
阿里巴巴
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序