Llama 4 家族:原生多模态 AI 创新新纪元的开端

1. 要点 三大模型概览:Llama 4 Scout(小型)、Llama 4 Maverick(中型)、Llama 4 Behemoth(大型),Behemoth还在训练,其余模型都是Behemoth蒸馏而来。 技术参数对比: 性能优势:多模态能力、Maverick在LMArena 1714分,Behemoth 声称击败所有模型 部署效率:单GPU适配 2. 预训练 MoE架构原理:参数激活机制、计算效率提升 多模态融合:早期融合技术、文本与视觉token集成 视觉增强:改进的MetaCLIP视觉编码器 训练创新:MetaP超参数设置、FP8精度训练 数据规模:30万亿Token、200种语言支持 上下文扩展:中期训练阶段、1000万Token长度 3.后训练 多模态挑战:不同输入模态平衡 优化流程:轻量级SFT → 在线RL → 轻量级DPO 数据策略:模型评判器过滤、难度筛选 迭代方法:连续在线强化学习、自适应过滤 效果验证:智能与对话能力平衡 4.模型特性与能力 Maverick特点:大规模专家(128)、跨语言应用、创意写作 Scout创新:iRoPE架构、交错注意力层、无位置嵌入 长上下文技术:推理时温度缩放、旋转位置嵌入 视觉理解:多图像处理(最多48张)、时间相关活动理解 图像定位:精确视觉问答、对象定位能力 5. 2T Behemoth模型 规模与定位:288B活跃参数、2T总参数、教师模型角色 蒸馏技术:共同蒸馏、动态加权损失函数 训练挑战:95%数据裁剪、大规模强化学习 提示词策略:难度递增计划、零优势动态过滤 基础设施创新:异步在线RL框架、灵活GPU分配 效率提升:训练速度10倍提升、资源平衡 以下为原文:包含更多细节 预训练 构建下一代 Llama 模型要求我们在预训练期间采取几种新方法。 我们新的 Llama 4 模型是我们首批使用混合专家(MoE)架构的模型。在 MoE 模型中,单个 Token 仅激活总参数中的一小部分。MoE 架构在训练和推理方面计算效率更高,并且在给定的固定训练 FLOPs 预算下,与密集模型相比,能够提供更高的质量。 例如,Llama 4 Maverick 模型包含 17B (170亿) 活跃参数和 400B (4000亿) 总参数。我们交替使用密集层和混合专家 (MoE) 层以提升推理效率。MoE 层使用了 128 个路由专家和一个共享专家。每个 token 会被发送到共享专家,同时也会发送到 128 个路由专家中的一个。因此,尽管所有参数都存储在内存中,但在运行这些模型进行服务时,只有总参数的一个子集会被激活。这通过降低模型服务成本和延迟来提高推理效率——Llama 4 Maverick 既可以在单台 NVIDIA H100 DGX 主机上运行以便于部署,也可以通过分布式推理实现最高效率。 Llama 4 模型采用原生多模态设计,并结合了早期融合技术,将文本和视觉 token 无缝集成到统一的模型骨干网络中。早期融合是一项重大进步,因为它使我们能够利用大量未标记的文本、图像和视频数据对模型进行联合预训练。我们还改进了 Llama 4 中的视觉编码器。该编码器基于 MetaCLIP,但与一个冻结的 Llama 模型协同进行了单独训练,旨在使编码器能更好地适配大语言模型 (LLM)。 ...

April 6, 2025 · 小茄墩