Gemini

Gemini 2.5 Pro 制胜 IMO 的提示词全解析

《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025》整个流程被分解为以下6步：步骤 1：生成初始解决方案；步骤 2：自我改进；步骤 3：验证解决方案并生成错误报告；步骤 4：审查错误报告；步骤 5：根据错误报告修正或改进解决方案；步骤 6：接受或拒绝。作者发现模型存在“思考预算”（即token限制），一次性生成完整复杂的证明非常困难。因此，他们让模型先生成初步解答，再让它自己“审阅和改进”，这相当于给了模型第二次机会和额外的思考预算来深化推理，这是一个非常实用的技巧。其次，验证者的设计至关重要。它被指令扮演一个极其严格的IMO阅卷人，其任务不是修正错误，而是找出所有问题。最巧妙的做法是将问题分为两类：“关键错误”（Critical Error）和“论证缺陷”（Justification Gap）。如果发现关键错误，该证明路径就被中止；如果只是论证不够严谨，验证者会**“假设此步骤结论为真”**，然后继续检查后续逻辑。这种做法能够最大化地利用部分正确的证明，避免因小瑕疵而全盘放弃。同时，流程中还包括了审查（步骤4），以纠正验证者自身可能犯的错误，最终一个解法需要连续通过5次验证才被接受，确保了结果的高度可靠性。实验设置在参数上，他们选择低“温度” (temperature=0.1)，以减少模型输出的随机性，确保逻辑的稳定性；同时用满了模型的“思考预算” (32768 tokens)，给予模型最充分的思考空间。初始解题提示词（Step 1 Prompt）：核心指令是**“严谨性至上”（Rigor is Paramount）**，明确告诉模型“逻辑错误的正确答案等于失败”。它还引导模型，如果无法得出完整解，就必须诚实地只提交自己能严格证明的“部分成果”，并给出了“部分成果”的定义（如证明一个关键引理）。这种设计极大地抑制了模型的幻觉和猜测行为。 Step 1 Prompt 核心指令严谨至上：您的首要目标是产出完整且经过严谨论证的解法。解法中的每一步都必须逻辑严密、解释清晰。任何基于有缺陷或不完整推理得出的正确最终答案，均视为失败。对完整性保持诚实：如果您无法找到完整的解法，绝不能猜测或编造看似正确但包含隐藏缺陷或论证空白的解法。您只应呈现能严格证明的重要部分结果。若一个部分结果代表了向完整解法迈出的实质性进展，则该结果被认为是重要的。例如：证明一个关键引理。在一个逻辑严密的分类讨论证明中，完全解决一个或多个案例。确立问题中数学对象的某一关键属性。对于优化问题，证明一个上界或下界，而无需证明该界限是可达的。为所有数学内容使用 TeX：所有数学变量、表达式和关系式都必须用 TeX 分隔符包围（例如：‘ Let $n$ be an integer .）。输出格式您的回复必须严格按照以下确切顺序，结构化为下列部分。摘要提供您研究结果的简明概述。此部分必须包含两个部分： a. 定论：清楚说明您是找到了完整的解法，还是部分解法。对于完整的解法：陈述最终答案，例如：“我已成功解决该问题。最终答案是……” 对于部分解法：陈述您能够严格证明的主要结论，例如：“我未能找到完整的解法，但我已严格证明……” b. 方法简述：呈现您解法的高层次概念性大纲。该简述应能让专家在不阅读完整细节的情况下理解您论证的逻辑流程。它应包括： ...

Gemini 2.5 报告

《Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities》本报告介绍了Gemini 2.X模型家族，包括Gemini 2.5 Pro和Gemini 2.5 Flash，以及早期版本Gemini 2.0 Flash和Flash-Lite。这一代模型原生支持多模态，具备先进的思维推理、长上下文处理和工具使用能力，能够处理超过100万个token的文本、音频、图像、视频甚至整个代码库。Gemini 2.5 Pro是目前最强大的模型，在编码和推理基准测试中达到了SOTA（State-of-the-Art）性能，并擅长多模态理解，能够处理长达3小时的视频内容。Gemini 2.5 Flash则在计算和延迟要求较低的情况下提供出色的推理能力。Gemini 2.0 Flash和Flash-Lite则在高性价比和低延迟方面表现优异。这些模型共同覆盖了模型能力与成本的帕累托前沿，使用户能够探索复杂Agent问题解决的边界。模型架构 Gemini 2.5模型采用了稀疏混合专家（MoE）Transformer架构，原生支持文本、视觉和音频输入。MoE模型通过动态路由token到参数子集（专家）来激活部分模型参数，从而在计算和token服务成本上解耦了总模型容量。架构的改进显著提升了Gemini 2.5的性能。Gemini 2.5系列在提升大规模训练稳定性、信号传播和优化动态方面取得了重大进展，从而在预训练阶段就显著提升了性能。Gemini 2.5模型在处理长上下文查询方面也取得了进展，Gemini 2.5 Pro在处理长达1M token的输入序列上超越了Gemini 1.5 Pro。此外，Gemini 2.5在视觉处理方面的架构改进显著提升了图像和视频理解能力，包括能够处理3小时长的视频，并将演示视频转化为交互式编码应用。小型模型（Flash及以下）利用了蒸馏技术，通过近似k稀疏分布来降低教师模型下一代token预测分布的存储成本，从而在质量和降低服务成本之间取得了平衡。数据集 Gemini 2.0和2.5的预训练数据集是一个大规模、多样化的数据集合，涵盖了广泛的领域和模态，包括公开可用的网络文档、代码（各种编程语言）、图像、音频（包括语音和其他音频类型）和视频。Gemini 2.0的数据截止日期是2024年6月，Gemini 2.5是2025年1月。相较于Gemini 1.5的预训练数据集，2.0和2.5采用了新的方法来改进数据过滤和去重，以提高数据质量。后训练数据集与Gemini 1.5类似，包含经过精心收集和审查的指令调优数据，以及多模态数据、配对的指令和响应，此外还有人类偏好和工具使用数据。训练基础设施 Gemini 2.X模型家族是首个在TPUv5p架构上训练的模型，采用了跨多个数据中心的Google TPUv5p加速器上的同步数据并行训练。与Gemini 1.5相比，主要的软件预训练基础设施改进在于弹性和SDC（静默数据损坏）错误缓解。Slice-Granularity Elasticity（切片粒度弹性）允许系统在局部故障时自动以较少数量的TPU芯片“切片”继续训练，每次中断只损失几十秒的训练时间，而无需等待机器重新调度。Split-Phase SDC Detection（分阶段SDC检测）利用轻量级确定性重放立即重复任何可疑指标的步骤，并通过比较每个设备的中间校验和来定位数据损坏的根本原因，从而在几分钟内识别并排除有间歇性SDC的加速器，显著减少了调试停机时间和训练步骤回滚。这些技术的实现得益于Pathways系统单一控制器的设计，该设计允许所有加速器通过一个具有全局系统视图的Python程序进行协调。后训练 Gemini 1.5发布以来，后训练方法取得了显著进展，主要集中在监督微调（SFT）、奖励建模（RM）和强化学习（RL）阶段的数据质量。关键做法是利用模型本身辅助这些过程，实现更高效和精细的质量控制。此外，报告增加了RL的训练计算资源，实现了模型行为的更深层次探索和完善。这与对可验证奖励和基于模型的生成奖励的关注相结合，提供了更复杂和可扩展的反馈信号。RL流程的算法变化也提高了长时间训练的稳定性。这些进展使Gemini 2.5能够从更多样化和复杂的RL环境中学习，包括那些需要多步动作和工具使用的环境，从而实现了全面性能提升，Gemini 2.5 Flash和Pro在LMArena ELO分数上比Gemini 1.5对应模型提高了120多分，并在其他前沿基准测试中取得了显著进步。思维 (Thinking) 过去的Gemini模型在用户查询后立即生成答案，这限制了模型在推理问题上花费的推理时间（思维）。Gemini Thinking模型通过强化学习进行训练，在推理时利用额外的计算资源以获得更准确的答案。最终模型能够在回答问题或查询之前进行数万次前向传递的“思考”阶段。训练方案从最初的实验性思考模型Gemini 2.0 Flash Thinking（2024年12月发布）演变为Gemini 2.5 Thinking系列，后者在所有领域原生集成了思考能力，实现了全面的更强推理性能，并能随着推理时间的增加进一步提升性能。Gemini 2.5 Thinking模型将思维能力与原生多模态输入（图像、文本、视频、音频）和长上下文（1M+ token）等其他Gemini能力相结合。模型可以自行决定思考时长，用户也可以设置思考预算来平衡性能和成本。 ...

Gemini API 支持 TTS

Gemini API 借助其原生的文本转语音 ( TTS ) 功能，可将文本输入转化为单人或多人朗读的音频。用户可以通过自然语言指令来设定交互模式，并调整生成音频的风格、口音、语速和音调。此 TTS 功能有别于通过 Live API 提供的语音生成服务。 Live API 更侧重于交互式、非结构化的音频场景以及多模态的输入输出处理。尽管 Live API 在处理动态对话方面表现优异，但 Gemini API 的 TTS 功能则更适用于那些需要精确复述文本并对音频风格和音效进行精细控制的应用场景，例如播客或有声读物的制作。本指南将演示如何利用文本生成单人朗读和多人对话的音频。 gemini-2.5-pro-preview-tts gemini-2.5-flash-preview-tts 单人文本转语音若要将文本转换为单人朗读的音频，需将响应模式设置为 “audio” ，并传递一个已配置 VoiceConfig 的 SpeechConfig 对象。您需要从预设的输出语音库中选择一个语音名称。以下示例展示了如何将模型输出的音频保存为 wave 文件：多人文本转语音对于多人对话音频，您需要创建一个 MultiSpeakerVoiceConfig 对象，并为每位发言者（最多支持两位）配置相应的 SpeakerVoiceConfig。您需要确保在提示信息中为每位 speaker 定义的名称与配置中的名称一致：音频流除了像单人朗读和多人对话示例中那样将音频保存到 wave 文件，您还可以通过音频流的方式从模型获取输出。音频流会在响应生成过程中逐步返回数据片段，从而带来更流畅的体验。一旦响应开始，音频便会自动播放。通过提示语控制语音风格无论是单人朗读还是多人对话的 TTS ，您都可以使用自然语言提示语来控制音频的风格、音调、口音和语速。例如，在单人朗读的提示语中，您可以这样写：用诡异的耳语朗读： “拇指阵阵刺痛…… 邪恶之物将临近” 在多人对话的提示语中，您需要向模型提供每位发言者的姓名及其对应的文本内容。您还可以针对每位发言者分别给出风格指导：让 Speaker1 的声音听起来疲惫且无聊，让 Speaker2 的声音听起来兴奋且快乐： Speaker1：那么……今天有什么安排？ Speaker2：你绝对猜不到！可以尝试选用与您期望传达的风格或情感相符的语音选项，以进一步强化效果。例如，在上述提示中，选择带有呼吸声的 Enceladus 语音可能会更突显“疲惫”和“无聊”的感觉，而语调欢快的 Puck 语音则能更好地衬托出“兴奋”和“快乐”的情绪。 ...