Gemini 2.5 报告
《Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities》 本报告介绍了Gemini 2.X模型家族,包括Gemini 2.5 Pro和Gemini 2.5 Flash,以及早期版本Gemini 2.0 Flash和Flash-Lite。这一代模型原生支持多模态,具备先进的思维推理、长上下文处理和工具使用能力,能够处理超过100万个token的文本、音频、图像、视频甚至整个代码库。Gemini 2.5 Pro是目前最强大的模型,在编码和推理基准测试中达到了SOTA(State-of-the-Art)性能,并擅长多模态理解,能够处理长达3小时的视频内容。Gemini 2.5 Flash则在计算和延迟要求较低的情况下提供出色的推理能力。Gemini 2.0 Flash和Flash-Lite则在高性价比和低延迟方面表现优异。这些模型共同覆盖了模型能力与成本的帕累托前沿,使用户能够探索复杂Agent问题解决的边界。 模型架构 Gemini 2.5模型采用了稀疏混合专家(MoE)Transformer架构,原生支持文本、视觉和音频输入。MoE模型通过动态路由token到参数子集(专家)来激活部分模型参数,从而在计算和token服务成本上解耦了总模型容量。架构的改进显著提升了Gemini 2.5的性能。Gemini 2.5系列在提升大规模训练稳定性、信号传播和优化动态方面取得了重大进展,从而在预训练阶段就显著提升了性能。Gemini 2.5模型在处理长上下文查询方面也取得了进展,Gemini 2.5 Pro在处理长达1M token的输入序列上超越了Gemini 1.5 Pro。此外,Gemini 2.5在视觉处理方面的架构改进显著提升了图像和视频理解能力,包括能够处理3小时长的视频,并将演示视频转化为交互式编码应用。小型模型(Flash及以下)利用了蒸馏技术,通过近似k稀疏分布来降低教师模型下一代token预测分布的存储成本,从而在质量和降低服务成本之间取得了平衡。 数据集 Gemini 2.0和2.5的预训练数据集是一个大规模、多样化的数据集合,涵盖了广泛的领域和模态,包括公开可用的网络文档、代码(各种编程语言)、图像、音频(包括语音和其他音频类型)和视频。Gemini 2.0的数据截止日期是2024年6月,Gemini 2.5是2025年1月。相较于Gemini 1.5的预训练数据集,2.0和2.5采用了新的方法来改进数据过滤和去重,以提高数据质量。后训练数据集与Gemini 1.5类似,包含经过精心收集和审查的指令调优数据,以及多模态数据、配对的指令和响应,此外还有人类偏好和工具使用数据。 训练基础设施 Gemini 2.X模型家族是首个在TPUv5p架构上训练的模型,采用了跨多个数据中心的Google TPUv5p加速器上的同步数据并行训练。与Gemini 1.5相比,主要的软件预训练基础设施改进在于弹性和SDC(静默数据损坏)错误缓解。Slice-Granularity Elasticity(切片粒度弹性)允许系统在局部故障时自动以较少数量的TPU芯片“切片”继续训练,每次中断只损失几十秒的训练时间,而无需等待机器重新调度。Split-Phase SDC Detection(分阶段SDC检测)利用轻量级确定性重放立即重复任何可疑指标的步骤,并通过比较每个设备的中间校验和来定位数据损坏的根本原因,从而在几分钟内识别并排除有间歇性SDC的加速器,显著减少了调试停机时间和训练步骤回滚。这些技术的实现得益于Pathways系统单一控制器的设计,该设计允许所有加速器通过一个具有全局系统视图的Python程序进行协调。 后训练 Gemini 1.5发布以来,后训练方法取得了显著进展,主要集中在监督微调(SFT)、奖励建模(RM)和强化学习(RL)阶段的数据质量。关键做法是利用模型本身辅助这些过程,实现更高效和精细的质量控制。此外,报告增加了RL的训练计算资源,实现了模型行为的更深层次探索和完善。这与对可验证奖励和基于模型的生成奖励的关注相结合,提供了更复杂和可扩展的反馈信号。RL流程的算法变化也提高了长时间训练的稳定性。这些进展使Gemini 2.5能够从更多样化和复杂的RL环境中学习,包括那些需要多步动作和工具使用的环境,从而实现了全面性能提升,Gemini 2.5 Flash和Pro在LMArena ELO分数上比Gemini 1.5对应模型提高了120多分,并在其他前沿基准测试中取得了显著进步。 思维 (Thinking) 过去的Gemini模型在用户查询后立即生成答案,这限制了模型在推理问题上花费的推理时间(思维)。Gemini Thinking模型通过强化学习进行训练,在推理时利用额外的计算资源以获得更准确的答案。最终模型能够在回答问题或查询之前进行数万次前向传递的“思考”阶段。训练方案从最初的实验性思考模型Gemini 2.0 Flash Thinking(2024年12月发布)演变为Gemini 2.5 Thinking系列,后者在所有领域原生集成了思考能力,实现了全面的更强推理性能,并能随着推理时间的增加进一步提升性能。Gemini 2.5 Thinking模型将思维能力与原生多模态输入(图像、文本、视频、音频)和长上下文(1M+ token)等其他Gemini能力相结合。模型可以自行决定思考时长,用户也可以设置思考预算来平衡性能和成本。 ...