Gemini 2.5 报告

《Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities》 本报告介绍了Gemini 2.X模型家族,包括Gemini 2.5 Pro和Gemini 2.5 Flash,以及早期版本Gemini 2.0 Flash和Flash-Lite。这一代模型原生支持多模态,具备先进的思维推理、长上下文处理和工具使用能力,能够处理超过100万个token的文本、音频、图像、视频甚至整个代码库。Gemini 2.5 Pro是目前最强大的模型,在编码和推理基准测试中达到了SOTA(State-of-the-Art)性能,并擅长多模态理解,能够处理长达3小时的视频内容。Gemini 2.5 Flash则在计算和延迟要求较低的情况下提供出色的推理能力。Gemini 2.0 Flash和Flash-Lite则在高性价比和低延迟方面表现优异。这些模型共同覆盖了模型能力与成本的帕累托前沿,使用户能够探索复杂Agent问题解决的边界。 模型架构 Gemini 2.5模型采用了稀疏混合专家(MoE)Transformer架构,原生支持文本、视觉和音频输入。MoE模型通过动态路由token到参数子集(专家)来激活部分模型参数,从而在计算和token服务成本上解耦了总模型容量。架构的改进显著提升了Gemini 2.5的性能。Gemini 2.5系列在提升大规模训练稳定性、信号传播和优化动态方面取得了重大进展,从而在预训练阶段就显著提升了性能。Gemini 2.5模型在处理长上下文查询方面也取得了进展,Gemini 2.5 Pro在处理长达1M token的输入序列上超越了Gemini 1.5 Pro。此外,Gemini 2.5在视觉处理方面的架构改进显著提升了图像和视频理解能力,包括能够处理3小时长的视频,并将演示视频转化为交互式编码应用。小型模型(Flash及以下)利用了蒸馏技术,通过近似k稀疏分布来降低教师模型下一代token预测分布的存储成本,从而在质量和降低服务成本之间取得了平衡。 数据集 Gemini 2.0和2.5的预训练数据集是一个大规模、多样化的数据集合,涵盖了广泛的领域和模态,包括公开可用的网络文档、代码(各种编程语言)、图像、音频(包括语音和其他音频类型)和视频。Gemini 2.0的数据截止日期是2024年6月,Gemini 2.5是2025年1月。相较于Gemini 1.5的预训练数据集,2.0和2.5采用了新的方法来改进数据过滤和去重,以提高数据质量。后训练数据集与Gemini 1.5类似,包含经过精心收集和审查的指令调优数据,以及多模态数据、配对的指令和响应,此外还有人类偏好和工具使用数据。 训练基础设施 Gemini 2.X模型家族是首个在TPUv5p架构上训练的模型,采用了跨多个数据中心的Google TPUv5p加速器上的同步数据并行训练。与Gemini 1.5相比,主要的软件预训练基础设施改进在于弹性和SDC(静默数据损坏)错误缓解。Slice-Granularity Elasticity(切片粒度弹性)允许系统在局部故障时自动以较少数量的TPU芯片“切片”继续训练,每次中断只损失几十秒的训练时间,而无需等待机器重新调度。Split-Phase SDC Detection(分阶段SDC检测)利用轻量级确定性重放立即重复任何可疑指标的步骤,并通过比较每个设备的中间校验和来定位数据损坏的根本原因,从而在几分钟内识别并排除有间歇性SDC的加速器,显著减少了调试停机时间和训练步骤回滚。这些技术的实现得益于Pathways系统单一控制器的设计,该设计允许所有加速器通过一个具有全局系统视图的Python程序进行协调。 后训练 Gemini 1.5发布以来,后训练方法取得了显著进展,主要集中在监督微调(SFT)、奖励建模(RM)和强化学习(RL)阶段的数据质量。关键做法是利用模型本身辅助这些过程,实现更高效和精细的质量控制。此外,报告增加了RL的训练计算资源,实现了模型行为的更深层次探索和完善。这与对可验证奖励和基于模型的生成奖励的关注相结合,提供了更复杂和可扩展的反馈信号。RL流程的算法变化也提高了长时间训练的稳定性。这些进展使Gemini 2.5能够从更多样化和复杂的RL环境中学习,包括那些需要多步动作和工具使用的环境,从而实现了全面性能提升,Gemini 2.5 Flash和Pro在LMArena ELO分数上比Gemini 1.5对应模型提高了120多分,并在其他前沿基准测试中取得了显著进步。 思维 (Thinking) 过去的Gemini模型在用户查询后立即生成答案,这限制了模型在推理问题上花费的推理时间(思维)。Gemini Thinking模型通过强化学习进行训练,在推理时利用额外的计算资源以获得更准确的答案。最终模型能够在回答问题或查询之前进行数万次前向传递的“思考”阶段。训练方案从最初的实验性思考模型Gemini 2.0 Flash Thinking(2024年12月发布)演变为Gemini 2.5 Thinking系列,后者在所有领域原生集成了思考能力,实现了全面的更强推理性能,并能随着推理时间的增加进一步提升性能。Gemini 2.5 Thinking模型将思维能力与原生多模态输入(图像、文本、视频、音频)和长上下文(1M+ token)等其他Gemini能力相结合。模型可以自行决定思考时长,用户也可以设置思考预算来平衡性能和成本。 ...

June 18, 2025 · 小茄墩

斯坦福CS336:大模型从0到1|25年最新最好的大模型入门课

官方网站:https://cs336.stanford.edu/ 去年该课程没有放出视频,今年官方放出了视频。课程内容均结合今年的大模型发展做了更新。 在这个许多人通过高级API与大语言模型交互的时代,本课程旨在让研究者和开发者重新连接到底层技术。我们坚信,要真正理解语言模型,你必须亲手构建它。 每次课程内容: 1. 4月1日 周二 概述与分词 本节课深入探讨第一个技术组成部分 :Tokenization。 中英字幕版本:斯坦福CS336第一课:Tokenization详解 - 小红书 2. 4月3日 周四 PyTorch与资源核算 这堂课主要讲解了如何从头开始构建语言模型,特别是关注 PyTorch 中的基本构件以及效率(内存和计算资源的使用) 课程目标与重点: 核心是实际构建模型,理解 PyTorch 的基本元素(张量、模型、优化器、训练循环)。 高度关注效率,包括内存占用和计算资源(FLOPs)的估算与优化。 侧重于 PyTorch 的机制 (mechanics) 和资源核算的心态 (mindset)。 中英字幕版本:斯坦福CS336第二课:pytorch手把手搭建LLM - 小红书 3. 4月8日 周二 架构与超参数 关于 LLM 架构和训练,那些你想知道的一切 1)Transformer 架构回顾与演进趋势 2)核心架构变体:归一化、激活函数与层结构 3)位置编码的收敛:RoPE 的主导 4)超参数选择的经验法则与共识 5)训练稳定性技巧:应对 Softmax 的挑战 6)注意力头部的变体:推理优化与长上下文处理 中英字幕版本:斯坦福CS336第三课:详解LLM基础架构 - 小红书 4. 4月10日 周四 混合专家模型 混合专家模型(Mixture of Experts, MoE)  去年,这只是一个有趣的额外讲座。但今年,由于很多人都在研究MoE,这节课变得更加重要。所以老师加入了很多最近的进展。最后,尝试剖析DeepSeek V3,理解构成这样一个最先进的开源系统(至少在架构方面)的各种组件。 MoE架构与非MoE架构在大部分组件上是相似的,主要区别在于如何处理前馈神经网络(FFN)层。在一个标准的Transformer模型中,FFN通常是一个单独的、密集的模块。而在MoE模型中,这个单独的FFN会被替换为多个(可能是复制或分割而来)较小的FFN副本,这些副本被称为“专家”。同时,会引入一个“路由器”(router)或“选择器”(selector)层。在每次前向传播或推理过程中,路由器会根据输入选择激活一小部分(例如,一个或几个)专家进行计算。这样做最大的好处是,如果每个专家的大小与原始密集模型的FFN相同,并且每次只激活一个专家,那么模型的总参数量可以显著增加,而计算量(flops)却保持不变。这对于那些相信更多参数能帮助模型记忆更多世界知识的观点来说,是一个极具吸引力的架构。 大量研究表明,在相同的训练计算量(training flops)下,混合专家模型能取得比密集模型更优的性能。 尽管MoE在flops效率上表现出色,但其并非没有代价。一个主要的挑战在于系统实现的复杂性。有效地路由数据到成百上千个专家,并保证计算效率,需要复杂的基础设施支持。 ...

May 15, 2025 · 小茄墩

JetFormer:自回归大模型,原生图像输出的秘诀?

摘要 移除建模约束和统一跨领域的架构一直是训练大型多模态模型取得最新进展的关键驱动因素。然而,大多数这些模型仍然依赖于许多单独训练的组件,例如特定模态的编码器和解码器。在这项工作中,我们进一步简化了图像和文本的联合生成建模。我们提出了一种 autoregressive decoder-only transformer—JetFormer—它被训练来直接最大化原始数据的似然,而不依赖于任何单独预训练的组件,并且能够理解和生成文本和图像。具体来说,我们利用归一化流模型来获得一个软Token图像表示,该表示与自回归多模态Transformer联合训练。归一化流模型在推理期间既充当感知任务的图像编码器,又充当图像生成任务的图像解码器。JetFormer实现了与最近基于VQVAE和VAE的基线模型相媲美的文本到图像生成质量。这些基线模型依赖于预训练的图像自动编码器,这些自动编码器使用包括感知损失在内的复杂损失混合进行训练。与此同时,JetFormer展示了强大的图像理解能力。据我们所知,JetFormer是第一个能够生成高保真图像并产生强大的对数似然边界的模型。 介绍 “痛苦的教训”一直是机器学习和人工智能研究近期进展背后的主要推动力。 它表明,能够有效利用大量计算资源和数据的一般用途方法,胜过领域专家设计的专用技术。 在此背景下,最突出的例子包括:仅使用 Transformer 解码器的模型,这些模型经过训练用于下一个 Token 预测,其性能优于特定任务的 NLP 系统;以及计算机视觉中的 Transformer 编码器,它们实现了比基于 CNN 的模型更好的质量。 这种趋势在当前将大语言模型 (LLM) 扩展到理解和生成多种模态(例如文本和图像)的尝试中也很明显。 文献中一个有效的范例是使用通过 (VQ)VAE 获得的离散 Token 来建模图像 Token。 这些方法的一个局限性在于,从图像到 Token 以及反之的转换是由一个单独的、冻结的、特定于模态且有损的编码器(和解码器)预先执行的。 因此,此图像编码器可能与手头的实际任务无关,从而限制了最终模型的性能。 为了获得一个能够生成多种模态,且不依赖于预训练(具有局限性)组件的通用架构,我们开发了一种新的生成模型:JetFormer。 它可以从头开始训练,并针对原始训练数据的对数似然进行端到端优化。 我们以文本和像素为例展示了这一点。 为此,我们将用于计算软 Token 图像表示的归一化流与仅解码器的 Transformer 以及软 Token 高斯混合损失相结合。 JetFormer 模型背后的关键洞察在于,强大的归一化流(我们称之为 “jet”,因此得名)可用于将图像编码成适合自回归建模的潜在表示。 直观地说,编码为像素的原始图像块具有非常复杂的结构,这使得直接自回归变得困难重重: 迄今为止,还没有令人信服的演示能够成功实现这一点。 同时,该流模型是无损的,并且可以与(多模态)自回归模型一起进行端到端训练。 在推理时,图像解码器可以随时使用,因为我们的流模型具有闭合形式的可逆性。 尽管我们仅优化对数似然,但值得注意的是,仅仅这样做并不能保证生成具有全局连贯性的图像。与绝大多数关于高保真图像生成的工作类似,我们引导模型专注于高层次的信息。为此,我们探索了两种方法。首先,我们引入了一种基于训练期间图像增强的创新技术。其主要思想是在训练期间添加高斯噪声,并在训练过程中逐渐降低噪声。直观地说,这促使模型在早期阶段优先考虑高层次的信息;即使训练期间的噪声curriculum 受到扩散模型的启发,但在技术层面上却截然不同,并且最终的模型在推理时不会执行渐进式图像去噪。 其次,我们探索了两种管理自然图像中冗余信息的方法。JetFormer 能够轻松地从自回归模型中排除冗余维度的子集。作为一种替代方案,我们探索了使用 PCA 来降低图像维度。我们对 ImageNet 类条件图像生成和网络规模的多模态生成进行了实验,从而证明了 JetFormer 的有效性,并且可以使用单个模型扩展到文本到图像生成和视觉语言理解。 总之,我们的贡献是: 我们提出了 JetFormer,一个由 Transformer 和归一化流组成的生成模型,可以从头开始训练,以端到端的方式联合建模文本和原始像素。 我们表明,基于噪声学习curriculum的图像增强可以显著提高此类基于似然性的模型的图像生成质量。 我们证明了我们提出的端到端模型在网络规模数据上训练时,与不太灵活的技术相比具有竞争力,并且可以生成图像和文本。 相关工作 在文献中,使用 CNN 或 Transformer 以自回归的方式生成自然图像作为离散值像素序列已被广泛探索。 虽然在对数似然方面取得了优异的结果,但这些模型的计算成本很高,并且无法很好地扩展到高图像分辨率。 一系列相关的模型是归一化流,即可逆模型,通过最大化对数似然来训练这些模型,以将图像像素映射到简单的先验。 这些模型的可扩展性更好,但获得的似然性低于自回归模型,并且即使对于低分辨率,在经验上也无法生成高保真图像。 ...

March 30, 2025 · 小茄墩

Anthropic: 追踪大语言模型的思维

Claude这样的语言模型其实并非人类手把手编写出来——相反,它们是在大量数据上进行训练的。在训练过程中,它们学习自己的策略来解决问题。这些策略被编码在模型为每个词语所执行的数十亿次计算中。对于我们这些模型的开发者来说,这些策略难以解析理解。这意味着我们不理解模型是如何完成大多数任务的。 了解像Claude这样的模型如何思考,将使我们能够更好地理解它们的能力,并帮助我们确保它们正在执行我们期望的任务。例如: Claude可以说几十种语言。它在"思考"时使用的是什么语言,如果有的话? Claude一次写一个词。它是只专注于预测下一个词,还是有时会提前规划? Claude可以一步一步地写出它的推理过程。这种解释是否代表了它得出答案的实际步骤,或者它有时是为既定结论编造一个看似合理的论证? 我们从神经科学领域获得灵感,该领域长期以来一直研究思考生物的复杂内部机制,并尝试构建一种AI显微镜,让我们能够识别活动模式和信息流。仅仅通过与AI模型对话所能了解的内容是有限的——毕竟,人类(甚至神经科学家)也不知道我们自己的大脑是如何运作的所有细节。所以我们深入内部一探究竟。 今天,我们分享两篇新论文,这些论文代表了"显微镜"开发方面的进展,以及将其应用于观察新的"AI生物学"。在第一篇论文中,我们扩展了之前在模型内部定位可解释概念(“特征”)的工作,将这些概念连接成计算"circuit",揭示了将输入Claude的词转化为输出词的部分路径。在第二篇论文中,我们深入研究了Claude 3.5 Haiku内部,对代表十种关键模型行为的简单任务进行了深入研究,包括上述三种行为。我们的方法揭示了Claude响应这些提示词时发生的部分过程,这足以看到确凿的证据: 首先,Claude有时会在多种语言共享的概念空间中思考,这表明它拥有一种通用的"思想语言"。我们通过将简单句子翻译成多种语言并追踪Claude处理它们时的重叠部分来证明这一点。 其次,Claude会提前规划它要说的许多词,并为达到目标而写作。我们在诗歌领域展示了这一点,它会提前考虑可能的押韵词,并编写下一行诗句以达到押韵。这有力地证明,即使模型被训练为一次输出一个词,它们也可能在更长的时间范围内进行思考。 此外,Claude有时会给出一个听起来合理的论点,这个论点旨在附和用户而非遵循逻辑步骤。我们通过在给出错误提示的情况下要求它帮助解决一个困难的数学问题来展示这一点。我们能够"当场抓住"它编造假推理的过程,从而证明我们的工具可用于标记模型中令人担忧的机制。 我们经常对模型中看到的东西感到惊讶:在诗歌案例研究中,我们原本打算证明模型没有提前规划,但却发现它确实有这样做。在一项关于幻觉的研究中,我们发现了一个反直觉的结果——Claude的默认行为是在被问及问题时拒绝推测,它只会在某些因素抑制这种默认的不情愿时才回答问题。在回应一个越狱示例时,我们发现模型在能够优雅地将对话拉回正轨之前,就已经认识到它被要求提供危险信息。 虽然我们研究的问题可以(而且经常)通过其他方法进行分析,但通用的"构建显微镜"方法让我们学到了许多我们原本不会猜到的东西,这在模型变得更加复杂时将变得越来越重要。 这些发现不仅具有科学意义,它们还代表了我们在理解AI系统并确保其可靠性方面的重大进展。我们也希望它们对其他团体有所帮助,并可能在其他领域有所应用:例如,可解释性技术已在医学成像和基因组学等领域找到应用,因为解剖为科学应用而训练的模型的内部机制可以揭示关于科学的新见解。 同时,我们也认识到我们当前方法的局限性。即使对于简短、简单的提示词,我们的方法也只能捕获Claude执行的总计算的一小部分,而且我们看到的机制可能基于我们的工具有一些与底层模型实际情况不符的人工痕迹。目前,即使只是几十个词的提示词,理解我们看到的circuit也需要几个小时的人力。要扩展到支持现代模型使用的复杂思维链的数千个词,我们需要改进方法,并且(可能在AI的帮助下)改进我们理解所见的方式。 随着AI系统迅速变得更加强大并被部署在越来越重要的环境中,Anthropic正在投资一系列方法,包括实时监控、模型特性改进和对齐科学。像这样的可解释性研究是风险最高、回报最高的投资之一,这是一个重大的科学挑战,有可能提供一个独特的工具,确保AI是透明的。对模型机制的透明度使我们能够检查它是否与人类价值观一致,以及它是否值得我们信任。 有关完整详情,请阅读论文。下面,我们邀请您简要了解我们调查中一些最引人注目的"AI生物学"发现。 AI 生物学之旅 Claude 是如何实现多语言能力的? Claude 能流利地说数十种语言——从英语和法语到中文和塔加洛语。这种多语言能力是如何运作的?是否有独立的"法语 Claude"和"中文 Claude"并行运行,各自用自己的语言回应请求?还是内部存在某种跨语言的核心? 英语、法语和中文之间存在共享特征,表明概念存在一定程度的普遍性。 对较小模型的最新研究显示,不同语言之间存在共享的语法机制迹象。我们通过在不同语言中询问 Claude “small(小)的反义词"来进行调查,发现表示"小"和"反义"这些概念的相同核心特征被激活,并触发了"大"的概念,然后这个概念被翻译成问题所用的语言。我们发现,随着模型规模的增加,共享神经回路也增加,与较小的模型相比,Claude 3.5 Haiku 在语言之间共享的特征比例增加了两倍多。 这为概念通用性提供了额外的证据——一种共享的抽象空间,在这个空间中存在意义,思考可以在被翻译成特定语言之前发生。更实际地说,这表明 Claude 可以在一种语言中学习某些内容,并在使用另一种语言时应用这些知识。研究模型如何在不同上下文中共享其知识,对于理解其最先进的推理能力至关重要,这些能力可以跨多个领域进行泛化。 Does Claude plan its rhymes? Claude 如何写押韵诗歌?考虑这首小曲: He saw a carrot and had to grab it, His hunger was like a starving rabbit 要写出第二行,模型必须同时满足两个约束:需要押韵(与第一行末尾"抓起来"押韵),以及需要语义通顺(解释他为什么要抓胡萝卜)。我们的猜测是,Claude是逐字写作的,没有太多提前考虑,直到行尾才确保选择一个押韵的词。因此,我们预期会看到一个具有并行路径的神经网络结构,一条路径确保最后一个词语义合理,另一条确保它能押韵。 然而,我们发现Claude实际上会提前规划。在开始写第二行之前,它就开始"思考"与"抓起来"押韵且与主题相关的潜在词汇。然后,带着这些计划,它创作出一行以预先规划好的词作为结尾。 为了理解这种规划机制在实践中如何运作,我们进行了一项实验,其灵感来自神经科学家研究大脑功能的方式——通过精确定位并改变大脑特定部位的神经活动(例如使用电流或磁流)。在此实验中,我们修改了Claude内部状态中代表"兔子"概念的部分。当我们去除"兔子"这一概念,并让Claude继续完成这行诗句时,它写出了一个以"习惯"结尾的新诗句,这是另一个合理的补全。我们还可以在同一位置注入"绿色"的概念,这会促使Claude写出一个合理的(但不再押韵的)诗句,该诗句以"绿色"结尾。这一实验既展示了Claude的规划能力,也展示了其适应性灵活性——当预期结果发生变化时,Claude能够相应地调整其方法。 心算 Claude 并非设计为计算器——它是在文本上训练的,而非配备数学算法。但不知何故,它能在"脑中"正确地进行加法运算。一个训练用来预测序列中下一个词的系统,是如何学会计算,比如 36+59,而不用写出每一步呢? 也许答案并不有趣:模型可能已经记忆了大量的加法表,并且简单地输出任何给定和的答案,因为该答案存在于其训练数据中。另一种可能性是它遵循我们在学校学习的传统手工加法算法。 ...

March 28, 2025 · 小茄墩

karpathy新课程-深入探讨 ChatGPT 等大语言模型

新发布的 3 小时 31 分钟 YouTube 视频-免费: 1. 讲师 Andrej 是 OpenAI 的创始成员之一(2015 年),随后担任特斯拉 AI 高级总监(2017-2022 年),现在他是 Eureka Labs 的创始人,该公司正在构建一所 AI 原生的学校。 2. 内容 这是一个面向大众的深度探讨,介绍了支撑 ChatGPT 及相关产品的大语言模型(LLM)AI 技术。视频涵盖了模型开发的完整训练流程,包括如何理解它们的“心理学”模型,以及如何在实际应用中最好地利用它们。 我们涵盖了所有主要阶段: 预训练:数据、分词、Transformer 神经网络的输入输出和内部结构、推理、GPT-2 训练示例、Llama 3.1 基础推理示例 监督微调:对话数据、“LLM 心理学”:幻觉、工具使用、知识/工作记忆、自我认知、模型需要 Token 来思考、拼写、不均衡的智能 强化学习:熟能生巧、DeepSeek-R1、AlphaGo、RLHF(基于人类反馈的强化学习)。 我为视频的“大众受众”系列设计了这一内容,相信即使没有技术背景的人也能理解。它将帮助你直观地了解 ChatGPT 等大语言模型的完整训练流程,并提供了许多示例,或许还能启发你思考当前的能力、现状以及未来的发展方向。 (此外,我大约一年前已经发布了一个“LLM 入门”视频,但那只是随机演讲的重新录制,所以我希望围绕这一主题做一个更全面的版本。两者仍然可以结合观看,因为演讲更深入地探讨了其他主题,例如 LLM 操作系统和 LLM 安全性。) 希望视频有趣且有用! 3. 章节 00:00:00 介绍 00:01:00 预训练数据(互联网) 00:07:47 分词 00:14:27 神经网络输入输出 00:20:11 神经网络内部结构 00:26:01 推理 00:31:09 GPT-2:训练与推理 00:42:52 Llama 3.1 基础模型推理 ...

February 6, 2025 · 小茄墩