2025年9月,Qwen团队发布下一代模型架构Qwen3-Next,称为Qwen3.5的抢先预览版。新模型引入四大核心改进:混合注意力机制、高稀疏度MoE结构、稳定性优化和多token预测机制,性能显著提升。Qwen3-Next-80B-A3B系列在训练成本仅为Qwen3-32B十分之一的情况下,推理吞吐量提升10倍以上,并在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。实测显示,该模型可秒解AIME数学竞赛题并支持多模态任务。此外,模型已开源,用户可通过魔搭社区、抱抱脸及阿里云API免费体验或调用服务。
原文链接
本文链接:https://kx.umi6.com/article/25136.html
转载请注明文章出处
相关推荐
换一换
推理效率与国外同类产品架构解决方案相当,国产飞腾 CPU 实现对 DeepSeek 全系列大模型端到端支持
2025-02-09 23:54:39
黄仁勋甩出三代核弹AI芯片,DeekSeek成最大赢家
2025-03-19 08:19:37
华为CloudMatrix重磅论文披露AI数据中心新范式,推理效率超 H100
2025-06-29 14:32:55
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
2025-09-12 07:06:19
腾讯携手创新“无监督前缀微调”技术:训练 tokens 最多减少 95%,提升 AI 推理效率
2025-03-02 15:41:26
阿里巴巴推出Qwen3-Next人工智能模型
2025-09-12 03:04:56
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍
2025-09-12 17:15:02
没有商业模式,是DeepSeek最坚固的「护城河」
2026-01-21 14:10:41
黄仁勋谈AI泡沫:泡沫产生是因为投资规模空前庞大 巨额投资是为了构建AI基础设施
2026-01-22 16:01:49
百度发布文心大模型5.0正式版
2026-01-22 10:49:05
百川发布循证增强医疗大模型M3 Plus
2026-01-22 14:59:21
中信建投:2026年金价或弱于2025年 值得期待的是铜
2026-01-22 08:45:48
高通砸钱、雷军入股!刚刚,上海诞生一个183亿手机代工巨头
2026-01-22 18:04:11
633 文章
444648 浏览
24小时热文
更多
-
2026-01-23 06:34:26 -
2026-01-23 00:20:44 -
2026-01-22 23:18:34