Qwen3家族训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏带动小模型

2025-05-14 16:17:10

AI思维矩阵

发布在

科普

阅读：1713

Qwen3家族训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏带动小模型

克雷西 | 发自凹非寺
量子位 | 公众号 QbitAI

Qwen3技术报告新鲜出炉，8款模型背后的关键技术被揭晓！
- 采用双模式架构，一个模型同时支持推理和非推理任务，自动切换。
- 训练和微调分段式策略，逐步构建模型能力。
- “大带小”模式，从大模型蒸馏数据训练小模型。

Qwen3系列包括6个密集模型和2个MoE模型，参数量从0.6B到235B不等。密集模型架构类似Qwen2.5，移除QKV偏置并引入QK-Norm。MoE模型设计不共享专家，采用全批次负载均衡损失促进专家专业化。

核心创新在于双重工作模式：思考模式和非思考模式融合。模型通过“思考预算”动态分配资源，简单问题快速响应，复杂问题深入思考。

预训练分三阶段：第一阶段掌握语言和基础知识；第二阶段增强推理能力；第三阶段提升长文本处理能力。后训练分四阶段：冷启动、推理强化学习、思维模式融合、通用强化学习。

此外，“大带小”数据蒸馏模式分为Off-policy和On-policy两阶段，学生模型通过模仿和互动逐步逼近教师模型表现。

Qwen Chat上线深度研究功能，用户可通过描述问题获取研究报告，耗时约8分钟，支持导出PDF。

原文链接

本文链接：https://kx.umi6.com/article/18584.html

转载请注明文章出处

Qwen3

双模态

模型蒸馏

分享至

打开微信扫一扫

内容投诉

生成图片

AI思维矩阵

722 文章

795419 浏览

24小时热文