Qwen3 技术报告

Qwen3 系列大型语言模型通过整合稠密与混合专家 (MoE) 架构,实现了从 0.6 亿到 235 亿参数规模的覆盖,其核心创新在于将用于复杂多步推理的“思考模式”与用于快速上下文驱动响应的“非思考模式”统一到单一框架中。 这种设计不仅避免了在聊天优化模型和专用推理模型之间切换的麻烦,还允许根据用户查询或聊天模板动态调整模式 。同时,Qwen3 引入了“思考预算”机制,用户可以根据任务复杂性自适应分配推理时的计算资源,从而平衡延迟与性能 。此外,通过利用旗舰模型的知识,Qwen3 在显著减少小规模模型构建计算资源的同时,确保了其极具竞争力的性能 。实验证明,Qwen3 在代码生成、数学推理、智能体任务等多种基准测试中均达到业界领先水平,并显著扩展了多语言支持至 119 种语言和方言,提升了全球范围内的可访问性与跨语言理解生成能力 。所有 Qwen3 模型均在 Apache 2.0 许可下公开,以促进社区研究与发展 。 2. 模型架构 (Architecture) Qwen3 系列模型包含了从 0.6B 到 32B 参数的 6 个稠密模型,以及 Qwen3-30B-A3B 和 Qwen3-235B-A22B 两款混合专家 (MoE) 模型,其中旗舰模型 Qwen3-235B-A22B 总参数量为 235B,激活参数量为 22B 。稠密模型的架构与 Qwen2.5 相似,采用了分组查询注意力 (GQA)、SwiGLU 激活函数、旋转位置嵌入 (RoPE) 和带有预归一化的 RMSNorm 。为了确保 Qwen3 训练的稳定性,移除了 Qwen2 中使用的 QKV 偏置,并在注意力机制中引入了 QK-Norm 。对于 MoE 模型,其基础架构与稠密模型一致,并借鉴了 Qwen2.5-MoE 的细粒度专家分割方法,设有 128 个总专家,每个词元激活 8 个专家,但与 Qwen2.5-MoE 不同的是,Qwen3-MoE 设计中不包含共享专家 。此外,还采用了全局批量负载均衡损失来促进专家特化,这些架构和训练上的创新显著提升了模型在下游任务中的性能 。所有 Qwen3 模型均使用 Qwen 的分词器,该分词器实现了字节级字节对编码 (BBPE),词汇量大小为 151,669 。 ...

May 14, 2025 · 小茄墩

Seed1.5-VL 技术报告

Seed1.5-VL,这是一款视觉语言基础模型,旨在提升通用的多模态理解与推理能力。Seed1.5-VL 模型包含一个 5.32 亿参数的视觉编码器和一个拥有 200 亿活跃参数的混合专家 (MoE) 大语言模型 (LLM)。尽管架构相对紧凑,该模型在一系列公开的视觉语言模型 (VLM) 基准测试及内部评估中均表现出色,在 60 项公开基准测试中的 38 项上达到了业界领先 (state-of-the-art) 水平。此外,在图形用户界面 (GUI) 控制、游戏操作等以智能体为核心的任务上,Seed1.5-VL 的表现也超越了包括 OpenAI CUA 和 Claude 3.7 在内的顶尖多模态系统。该模型不仅擅长视觉和视频理解,还展现出强大的推理能力,在应对视觉谜题等多模态推理挑战时尤为有效。 模型架构 (Architecture) Seed1.5-VL的架构由视觉编码器、MLP适配器和大型语言模型 (LLM) 三个核心组件构成 。其视觉编码器 Seed-ViT 能够原生支持动态图像分辨率,并采用2D旋转位置编码 (2D ROPE) 以灵活适应任意尺寸的图像,这对于处理高分辨率图像、视频及OCR等需要精细细节的任务至关重要 。为了提高计算效率,架构对相邻的 $2\times2$ 特征块应用平均池化,随后通过一个两层MLP处理这些池化后的特征,再输入LLM 。报告强调,采用视觉编码器而非无编码器架构,能有效进行图像压缩,从而用更少的令牌表示高分辨率图像 。对于视频输入,模型采用了动态帧率-分辨率采样策略,并为每帧添加时间戳标记,以增强模型的时间感知能力和处理不同帧率视频的灵活性 。 视觉编码器 (Vision Encoder) 视觉编码器 Seed-ViT 是一个专为原生分辨率特征提取而设计的拥有5.32亿参数的Vision Transformer (ViT) 。它在预处理阶段将输入图像分辨率调整为 $28\times28$ 像素的最近倍数,然后分割成 $14\times14$ 像素的非重叠图像块 。这些图像块序列被投影到嵌入空间并输入Transformer模块,通过注意力掩码确保图像内的注意力机制 。 Seed-ViT 的预训练分为三个阶段:首先是采用2D ROPE的掩码图像建模 (MIM),通过重建教师模型 (EVA02-CLIP-E) 的CLIP特征来增强视觉几何和结构感知能力,即使教师模型使用可学习位置嵌入而学生模型使用2D ROPE,后者依然赋予学生模型强大的原生动态分辨率识别能力 ;其次是原生分辨率对比学习阶段,视觉编码器使用MIM训练的学生模型初始化,文本编码器使用EVA-02-CLIP-E的文本编码器初始化,通过联合优化SigLIP损失和SuperClass损失来对齐图像和文本嵌入 ;最后是全模态预训练阶段,采用MiCo框架构建包含视频帧、音频、视觉字幕和音频字幕的对齐元组,通过对齐这些嵌入使ViT学习统一的全模态表示,显著提升了ViT在图像和视频理解任务上的性能 。 视频编码 (Video Encoding) Seed1.5-VL 通过引入动态帧率-分辨率采样 (Dynamic Frame-Resolution Sampling) 策略来有效编码视频信息,该策略在时间和空间维度上联合优化采样,以平衡语义丰富性和计算效率 。在时间维度上,模型根据内容复杂性和任务需求动态调整帧采样频率,默认为1 FPS,对于需要详细时间信息的任务可增至2 FPS或5 FPS 。为了明确每个帧在视频时间线上的位置,模型在每帧前添加时间戳令牌(如 [1.5 second]),显著增强了模型的时间感知能力和处理可变帧率的能力 。在空间维度上,模型在每个视频最多81920个令牌的预算内动态调整分配给每个选定帧的分辨率,提供六个预定义级别进行分层分配,允许在帧数和分辨率之间进行灵活权衡 。对于超长视频,模型会通过在整个视频中均匀采样来减少总帧数,以确保整个视频都能被表示 。 ...

May 14, 2025 · 小茄墩

Ultra-FineWeb:用于高质量大语言模型训练数据的高效数据过滤与验证

《Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data》清华刘知远团队出品 摘要 模型驱动的数据过滤仍然面临两大挑战:(1)缺乏有效的数据验证策略,难以对数据质量提供及时的反馈;(2)用于训练分类器的种子数据选择缺乏明确标准,且过度依赖人工经验,引入了一定的主观性。针对第一个挑战,我们提出了一种高效的验证策略,能够以极低的计算成本快速评估数据对 LLM 训练的影响。针对第二个挑战,我们基于高质量种子数据有利于 LLM 训练的假设,结合提出的验证策略,优化了正负样本的选择,并提出了一种高效的数据过滤流程。该流程不仅提升了过滤效率、分类器质量和鲁棒性,还显著降低了实验和推理的成本。此外,为了高效过滤高质量数据,我们采用了一种基于 fastText 的轻量级分类器,并将该过滤流程成功应用于两个广泛使用的预训练语料库,即 FineWeb 和 Chinese FineWeb 数据集,从而创建了更高质量的 Ultra-FineWeb 数据集。Ultra-FineWeb 包含约 $1$ 万亿个英语 Token 和 $1200$ 亿个中文 Token。实验结果表明,在 Ultra-FineWeb 上训练的 LLM 在多个基准测试任务中表现出显著的性能提升,验证了我们的流程在提升数据质量和训练效率方面的有效性。 总体工作流 所提出的基于高效验证的高质量过滤管道的总体工作流程如图1(c)所示。我们首先构建一个初始候选种子池,并应用我们的高效验证策略来识别能够显著提高训练性能的高质量样本。这些经过验证的样本作为正样本种子,用于训练分类器,而负样本则从原始数据池中随机选择,以创建一个平衡的训练集。在分类器过滤阶段,我们从原始数据池中抽取一个小样本子集,并使用我们的高效验证策略来验证分类器的选择,以评估其有效性。基于验证结果,我们迭代更新高质量种子池,调整正样本和负样本的比例,并微调分类器训练超参数,以优化数据选择策略。只有在高效验证中表现出稳定可靠性能的分类器才会被部署用于全尺度数据选择和后续模型训练,从而在保持高数据质量的同时,显著降低计算成本。 高效验证策略 验证训练数据的有效性通常需要大量的计算资源。例如,在一个包含1000亿 (B) 个 Token 的数据集上训练一个 10 亿参数的大语言模型 (LLM),大约需要 1200 个 H100 GPU 小时(相当于 64 个 GPU 连续运行近 19 小时)。当迭代开发高质量的数据分类器时,这种计算负担变得尤其令人望而却步。此外,大规模的训练验证对于较小的数据集来说是不切实际的,因为使用有限的 Token 数量训练的模型无法表现出具有统计意义的性能差异,而训练的不稳定性进一步损害了结果的可靠性。这种限制在我们对 FineWeb 和 FineWeb-edu 的比较分析中很明显。当从头开始使用 80 亿个 Token 进行训练时,FineWeb-edu 在 HellaSwag 上取得了优异的性能,而在 3800 亿个 Token 时,FineWeb 在包括 Winogrande、HellaSwag 和 PIQA 在内的多个基准测试中表现更好,这突出了基于训练规模的评估结果的不一致性[^1]。 ...

May 11, 2025 · 小茄墩