Qwen3 技术报告
Qwen3 系列大型语言模型通过整合稠密与混合专家 (MoE) 架构,实现了从 0.6 亿到 235 亿参数规模的覆盖,其核心创新在于将用于复杂多步推理的“思考模式”与用于快速上下文驱动响应的“非思考模式”统一到单一框架中。 这种设计不仅避免了在聊天优化模型和专用推理模型之间切换的麻烦,还允许根据用户查询或聊天模板动态调整模式 。同时,Qwen3 引入了“思考预算”机制,用户可以根据任务复杂性自适应分配推理时的计算资源,从而平衡延迟与性能 。此外,通过利用旗舰模型的知识,Qwen3 在显著减少小规模模型构建计算资源的同时,确保了其极具竞争力的性能 。实验证明,Qwen3 在代码生成、数学推理、智能体任务等多种基准测试中均达到业界领先水平,并显著扩展了多语言支持至 119 种语言和方言,提升了全球范围内的可访问性与跨语言理解生成能力 。所有 Qwen3 模型均在 Apache 2.0 许可下公开,以促进社区研究与发展 。 2. 模型架构 (Architecture) Qwen3 系列模型包含了从 0.6B 到 32B 参数的 6 个稠密模型,以及 Qwen3-30B-A3B 和 Qwen3-235B-A22B 两款混合专家 (MoE) 模型,其中旗舰模型 Qwen3-235B-A22B 总参数量为 235B,激活参数量为 22B 。稠密模型的架构与 Qwen2.5 相似,采用了分组查询注意力 (GQA)、SwiGLU 激活函数、旋转位置嵌入 (RoPE) 和带有预归一化的 RMSNorm 。为了确保 Qwen3 训练的稳定性,移除了 Qwen2 中使用的 QKV 偏置,并在注意力机制中引入了 QK-Norm 。对于 MoE 模型,其基础架构与稠密模型一致,并借鉴了 Qwen2.5-MoE 的细粒度专家分割方法,设有 128 个总专家,每个词元激活 8 个专家,但与 Qwen2.5-MoE 不同的是,Qwen3-MoE 设计中不包含共享专家 。此外,还采用了全局批量负载均衡损失来促进专家特化,这些架构和训练上的创新显著提升了模型在下游任务中的性能 。所有 Qwen3 模型均使用 Qwen 的分词器,该分词器实现了字节级字节对编码 (BBPE),词汇量大小为 151,669 。 ...