Qwen3 系列大型语言模型通过整合稠密与混合专家 (MoE) 架构,实现了从 0.6 亿到 235 亿参数规模的覆盖,其核心创新在于将用于复杂多步推理的“思考模式”与用于快速上下文驱动响应的“非思考模式”统一到单一框架中。
这种设计不仅避免了在聊天优化模型和专用推理模型之间切换的麻烦,还允许根据用户查询或聊天模板动态调整模式 。同时,Qwen3 引入了“思考预算”机制,用户可以根据任务复杂性自适应分配推理时的计算资源,从而平衡延迟与性能 。此外,通过利用旗舰模型的知识,Qwen3 在显著减少小规模模型构建计算资源的同时,确保了其极具竞争力的性能 。实验证明,Qwen3 在代码生成、数学推理、智能体任务等多种基准测试中均达到业界领先水平,并显著扩展了多语言支持至 119 种语言和方言,提升了全球范围内的可访问性与跨语言理解生成能力 。所有 Qwen3 模型均在 Apache 2.0 许可下公开,以促进社区研究与发展 。
2. 模型架构 (Architecture)
Qwen3 系列模型包含了从 0.6B 到 32B 参数的 6 个稠密模型,以及 Qwen3-30B-A3B 和 Qwen3-235B-A22B 两款混合专家 (MoE) 模型,其中旗舰模型 Qwen3-235B-A22B 总参数量为 235B,激活参数量为 22B 。稠密模型的架构与 Qwen2.5 相似,采用了分组查询注意力 (GQA)、SwiGLU 激活函数、旋转位置嵌入 (RoPE) 和带有预归一化的 RMSNorm 。为了确保 Qwen3 训练的稳定性,移除了 Qwen2 中使用的 QKV 偏置,并在注意力机制中引入了 QK-Norm 。对于 MoE 模型,其基础架构与稠密模型一致,并借鉴了 Qwen2.5-MoE 的细粒度专家分割方法,设有 128 个总专家,每个词元激活 8 个专家,但与 Qwen2.5-MoE 不同的是,Qwen3-MoE 设计中不包含共享专家 。此外,还采用了全局批量负载均衡损失来促进专家特化,这些架构和训练上的创新显著提升了模型在下游任务中的性能 。所有 Qwen3 模型均使用 Qwen 的分词器,该分词器实现了字节级字节对编码 (BBPE),词汇量大小为 151,669 。
3. 预训练 (Pre-training)
Qwen3 的预训练过程在数据规模和多样性上相较于 Qwen2.5 有了显著扩展,收集的预训练词元数量增加了一倍,覆盖的语言种类增加了三倍,总计在包含 119 种语言和方言的 36 万亿词元的大规模多样化数据集上进行训练,涵盖编码、科学技术工程数学 (STEM)、推理任务、书籍、多语言文本和合成数据等领域 。
为了进一步扩充预训练数据,首先利用 Qwen2.5-VL 模型对大量类 PDF 文档进行文本识别,并使用 Qwen2.5 模型对识别文本进行精炼以提升质量,从而额外获得了数万亿的高质量文本词元 。同时,利用 Qwen2.5、Qwen2.5-Math 和 Qwen2.5-Coder 模型合成了数万亿不同格式的文本词元,包括教科书、问答、指令和代码片段等,覆盖数十个领域 。最后,通过整合额外的多语言数据并引入更多语言来进一步扩展预训练语料库,使得支持的语言数量从 Qwen2.5 的 29 种大幅增加到 119 种 。Qwen3 开发了一套多语言数据标注系统,对超过 30 万亿的词元在教育价值、领域、主题和安全性等多个维度进行了标注,这些细致的标注支持了更有效的数据过滤和组合,并通过在小型代理模型上进行大量消融实验,在实例级别优化了数据混合策略,而非仅仅在数据源或领域级别进行优化 。
预训练过程分为三个阶段:首先是通用阶段 (S1),所有 Qwen3 模型在超过 30 万亿词元上以 4096 词元的序列长度进行训练,构建语言能力和通用世界知识的基础 ;其次是推理阶段 (S2),通过增加 STEM、编码、推理和合成数据的比例来优化预训练语料库,模型在约 5 万亿更高质量的词元上以 4096 词元的序列长度进一步训练,并加速了学习率衰减 ;最后是长上下文阶段,收集高质量长上下文语料库将 Qwen3 模型的上下文长度扩展至 32768 词元,所有模型在该阶段使用包含大量 16K 至 32K 词元文本的数千亿词元进行预训练,并采用 ABF 技术、YARN 和双块注意力 (DCA) 等方法来实现推理时序列长度容量的四倍提升 。同时,Qwen3 发展了针对上述三个预训练阶段的最优超参数(如学习率调度器和批量大小)预测的缩放法则,通过大量实验系统研究了模型架构、训练数据、训练阶段和最优训练超参数之间的关系,并为每个稠密或 MoE 模型设定了预测的最优学习率和批量大小策略 。
4. 后训练 (Post-training)
Qwen3 的后训练流程设计围绕两大核心目标:
一是“思考控制”,即整合“非思考”和“思考”两种模式,允许用户选择模型是否进行推理,并通过指定思考过程的词元预算来控制思考深度 ;
二是“强到弱蒸馏”,旨在简化和优化轻量级模型的后训练过程,通过利用大规模模型的知识显著降低小规模模型构建的计算成本和开发投入 。
旗舰模型遵循复杂的四阶段训练过程:前两阶段专注于发展模型的“思考”能力,后两阶段则致力于将强大的“非思考”功能集成到模型中 。对于轻量级模型,实验表明直接从教师模型蒸馏输出 logits 能有效提升其性能并保持对推理过程的细粒度控制,这种方法避免了对每个小模型进行详尽的四阶段训练,不仅带来了更好的即时性能(如更高的 Pass@1 分数),还改善了模型的探索能力(如 Pass@64 结果的提升),且训练效率更高,仅需四阶段训练方法 GPU 小时数的十分之一 。
具体而言,第一阶段“长思维链 (Long-CoT) 冷启动”通过精心筛选的包含数学、代码、逻辑推理和通用 STEM 问题的数据集进行,该数据集经过严格的查询过滤(移除不易验证或无需 CoT 推理即可正确回答的查询)和响应过滤(移除错误答案、重复内容、猜测性推理、不一致性、不当语言或与验证集过度相似的响应),旨在为模型注入基础推理模式,而非过分强调即时推理性能,为后续强化学习阶段留出更大提升空间,此阶段训练样本和步骤都力求最少化 。
第二阶段“推理强化学习 (Reasoning RL)”使用满足未使用于冷启动、对冷启动模型可学习、尽可能具挑战性且覆盖广泛子领域的 3995 个查询-验证器对,采用 GRPO 算法更新模型参数,并通过大批量、高每查询 rollout 数以及离策略训练提升样本效率,同时通过控制模型熵来平衡探索与利用,实现了训练奖励和验证性能的持续改进 。
第三阶段“思考模式融合 (Thinking Mode Fusion)”目标是将“非思考”能力集成到已具备“思考”能力的模型中,通过在推理强化学习模型上进行持续监督微调 (SFT) 并设计专门的聊天模板(引入 /think 和 /no_think 标志)来实现双模式融合,使得模型能根据用户输入选择合适的思考模式,并自然发展出处理不完整思考并基于此生成响应的能力,为思考预算控制奠定基础;SFT 数据结合了通过拒绝采样生成的“思考”数据和精心策划覆盖多种任务的“非思考”数据 。
第四阶段“通用强化学习 (General RL)”旨在广泛增强模型在不同场景下的能力和稳定性,建立了覆盖超过 20 个不同任务(包括指令遵循、格式遵循、偏好对齐、智能体能力和特定场景能力如 RAG)的复杂奖励系统,并使用基于规则的奖励、带参考答案的模型奖励和不带参考答案的模型奖励三种反馈类型 。最后,“强到弱蒸馏 (Strong-to-Weak Distillation)”流程专为优化轻量级模型(包括 5 个稠密模型和 1 个 MoE 模型)而设计,分为离策略蒸馏(结合教师模型在思考和非思考模式下的输出进行响应蒸馏,帮助学生模型建立基础推理和模式切换能力)和在策略蒸馏(学生模型生成序列进行微调,通过与教师模型的 logits 对齐最小化 KL 散度)两个主要阶段 。
5. 结论 (Conclusion)
Qwen3 作为 Qwen 系列的最新版本,其核心特性在于同时支持“思考模式”与“非思考模式”,允许用户根据复杂思考任务动态管理所使用的词元数量 。该模型在一个包含 36 万亿词元的广泛数据集上进行了预训练,使其能够理解和生成多达 119 种语言和方言的文本 。通过一系列全面的评估,Qwen3 在预训练和后训练模型的多个标准基准测试中均展现出强大性能,尤其在代码生成、数学、推理和智能体相关任务上表现突出 。未来的研究重点将包括通过更高质量和更多样化的数据持续扩大预训练规模,改进模型架构和训练方法以实现有效压缩和扩展至极长上下文,并计划增加强化学习(特别是基于环境反馈学习的智能体强化学习系统)的计算资源,以构建能够处理需要推理时扩展的复杂任务的智能体 。