Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
克雷西 | 发自凹非寺
量子位 | 公众号 QbitAI
Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓!
- 采用双模式架构,一个模型同时支持推理和非推理任务,自动切换。
- 训练和微调分段式策略,逐步构建模型能力。
- “大带小”模式,从大模型蒸馏数据训练小模型。
Qwen3系列包括6个密集模型和2个MoE模型,参数量从0.6B到235B不等。密集模型架构类似Qwen2.5,移除QKV偏置并引入QK-Norm。MoE模型设计不共享专家,采用全批次负载均衡损失促进专家专业化。
核心创新在于双重工作模式:思考模式和非思考模式融合。模型通过“思考预算”动态分配资源,简单问题快速响应,复杂问题深入思考。
预训练分三阶段:第一阶段掌握语言和基础知识;第二阶段增强推理能力;第三阶段提升长文本处理能力。后训练分四阶段:冷启动、推理强化学习、思维模式融合、通用强化学习。
此外,“大带小”数据蒸馏模式分为Off-policy和On-policy两阶段,学生模型通过模仿和互动逐步逼近教师模型表现。
Qwen Chat上线深度研究功能,用户可通过描述问题获取研究报告,耗时约8分钟,支持导出PDF。
报告地址:Qwen3 Technical Report
Qwen Chat:Qwen Chat
原文链接
本文链接:https://kx.umi6.com/article/18584.html
转载请注明文章出处
相关推荐
.png)
换一换
Qwen3真香!通义App满血接入,一手实测在此
2025-04-30 19:02:05
阿里秘密研发新模型将发布,影响力指标成最重要考核
2025-04-01 15:34:24
硅谷掀桌!DeepSeek遭OpenAI和Anthropic围剿,美国网友都看不下去了
2025-01-30 13:28:20
425 文章
65741 浏览
24小时热文
更多

-
2025-07-20 10:03:13
-
2025-07-20 10:02:01
-
2025-07-20 09:01:50