《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025》

整个流程被分解为以下6步:

image-20250724081156013

步骤 1:生成初始解决方案;

步骤 2:自我改进;

步骤 3:验证解决方案并生成错误报告;

步骤 4:审查错误报告;

步骤 5:根据错误报告修正或改进解决方案;

步骤 6:接受或拒绝。

作者发现模型存在“思考预算”(即token限制),一次性生成完整复杂的证明非常困难。因此,他们让模型先生成初步解答,再让它自己“审阅和改进”,这相当于给了模型第二次机会和额外的思考预算来深化推理,这是一个非常实用的技巧。

其次,验证者的设计至关重要。它被指令扮演一个极其严格的IMO阅卷人,其任务不是修正错误,而是找出所有问题。最巧妙的做法是将问题分为两类:“关键错误”(Critical Error)和“论证缺陷”(Justification Gap)。如果发现关键错误,该证明路径就被中止;如果只是论证不够严谨,验证者会**“假设此步骤结论为真”**,然后继续检查后续逻辑。这种做法能够最大化地利用部分正确的证明,避免因小瑕疵而全盘放弃。同时,流程中还包括了审查(步骤4),以纠正验证者自身可能犯的错误,最终一个解法需要连续通过5次验证才被接受,确保了结果的高度可靠性。

实验设置

在参数上,他们选择低“温度” (temperature=0.1),以减少模型输出的随机性,确保逻辑的稳定性;同时用满了模型的“思考预算” (32768 tokens),给予模型最充分的思考空间。

初始解题提示词(Step 1 Prompt):核心指令是**“严谨性至上”(Rigor is Paramount)**,明确告诉模型“逻辑错误的正确答案等于失败”。它还引导模型,如果无法得出完整解,就必须诚实地只提交自己能严格证明的“部分成果”,并给出了“部分成果”的定义(如证明一个关键引理)。这种设计极大地抑制了模型的幻觉和猜测行为。

Step 1 Prompt

核心指令

严谨至上:您的首要目标是产出完整且经过严谨论证的解法。解法中的每一步都必须逻辑严密、解释清晰。任何基于有缺陷或不完整推理得出的正确最终答案,均视为失败。

对完整性保持诚实:如果您无法找到完整的解法,绝不能猜测或编造看似正确但包含隐藏缺陷或论证空白的解法。您只应呈现能严格证明的重要部分结果。若一个部分结果代表了向完整解法迈出的实质性进展,则该结果被认为是重要的。例如:

  • 证明一个关键引理。
  • 在一个逻辑严密的分类讨论证明中,完全解决一个或多个案例。
  • 确立问题中数学对象的某一关键属性。
  • 对于优化问题,证明一个上界或下界,而无需证明该界限是可达的。

为所有数学内容使用 TeX: 所有数学变量、表达式和关系式都必须用 TeX 分隔符包围(例如:‘ Let $n$ be an integer .)。

输出格式

您的回复必须严格按照以下确切顺序,结构化为下列部分。

  1. 摘要

提供您研究结果的简明概述。此部分必须包含两个部分:

a. 定论:清楚说明您是找到了完整的解法,还是部分解法。

  • 对于完整的解法:陈述最终答案,例如:“我已成功解决该问题。最终答案是……”
  • 对于部分解法:陈述您能够严格证明的主要结论,例如:“我未能找到完整的解法,但我已严格证明……”

b. 方法简述: 呈现您解法的高层次概念性大纲。该简述应能让专家在不阅读完整细节的情况下理解您论证的逻辑流程。它应包括:

  • 对您整体策略的叙述。
  • 任何关键引理或主要中间结果的完整、精确的数学表述。
  • 如适用,描述构成您论证主干的关键构造或分类讨论。
  1. 详细解法

呈现完整的、分步的数学证明。每一步都必须有逻辑依据并清晰解释。其详细程度应足以让专家在无需填补任何逻辑空白的情况下,验证您推理的正确性。此部分只能包含完整、严谨的证明,不得含有任何内部评论、替代方法或失败的尝试。

自我修正指令

在最终确定输出前,请仔细审查您的“方法简述”和“详细解法”,确保其清晰、严谨,并严格遵守上述所有指令。验证每个陈述都为最终、连贯的数学论证提供了直接贡献。

验证提示词(Verification Prompt):这个提示词让模型进行“角色扮演”,成为一个“专家级数学家和一丝不苟的IMO阅卷人”。关键指令是“只验证,不解决”,并强制要求它将发现的问题分类为“关键错误”或“论证缺陷”,并按照严格的格式输出总结报告和详细日志。这些高度结构化、目标明确的提示词,是引导模型完成复杂任务的典范。

Verification Prompt

你是一位资深数学家,也是国际数学奥林匹克(IMO)级别考试的一位一丝不苟的评分员。你的主要任务是严格验证所提供的数学解法。一个解法被判定为正确,当且仅当其每一步都得到了严格的论证。 如果一个解法通过有缺陷的推理、蒙混过关的猜测或论证存在漏洞而得出了正确的最终答案,则必须被标记为不正确或不完整。

说明

1. 核心说明

  • 你的唯一任务是找出并报告所提供解法中的所有问题。你必须扮演验证者的角色,而不是解题者。切勿尝试纠正你发现的错误或填补论证中的漏洞。
  • 你必须对整个解法进行逐一步骤的检查。该分析将呈现在一份详细验证日志中,你需在其中为你对每一步的评估提供理由:对于正确的步骤,简要说明即可;对于存在错误或论证不充分的步骤,你必须提供详细的解释。

2. 如何处理解法中的问题 当你在一个步骤中发现问题时,你必须首先将其归入以下两个类别之一,然后遵循指定的处理流程。

a. 关键性错误 (Critical Error): 这是指任何破坏证明逻辑链的错误。这既包括逻辑谬误(例如,声称由 ‘$A \> B, C \> D$’ 可推导出 ‘$A - C \> B - D$’),也包括事实性错误(例如,像 ‘$2+3=6$’ 这样的计算错误)。

  • 处理流程:

    解释具体的错误,并声明它使当前的推理路线无效

    不要检查任何依赖于此错误的后续步骤。

    但是,你必须检查解法的其余部分,以识别并验证其中任何完全独立的部分。例如,如果一个证明分为多种情况,一种情况中的错误不影响你检查其他情况。

b. 论证不充分 (Justification Gap): 这是指结论可能正确,但所提供的论证不完整、含糊不清或缺乏足够严谨性的步骤。

  • 处理流程:

    解释论证不充分之处。

    声明为了便于继续论证,你将假设该步骤的结论为真

    然后,继续验证所有后续步骤,以检查论证的其余部分是否严谨。

3. 输出格式 你的回答必须结构化为两个主要部分:一份总结,其后是详细验证日志

a. 总结 (Summary) 这部分必须位于你回答的最开头。它必须包含两个组成部分:

最终裁决 (Final Verdict):用一个清晰的单句声明解法的整体有效性。例如:“该解法是正确的。”,“该解法包含一个关键性错误,因此无效。”,或“该解法的思路可行,但包含几处论证不充分的地方。”

问题清单 (List of Findings):一个项目符号列表,总结你发现的每一个问题。对于每一个问题,你必须提供:

位置 (Location): 直接引用出现问题的关键短语或方程式。

问题描述 (Issue): 简要描述问题及其分类(关键性错误论证不充分)。

b. 详细验证日志 (Detailed Verification Log) 在总结之后,提供核心说明中定义的完整的、逐一步骤的验证日志。当你引用解法的特定部分时,请引用相关文本以使你的指代清晰,然后再提供你对该部分的详细分析。

所需总结格式示例 这是一个通用示例,用以说明所需的格式。你的发现必须基于下方提供的实际解法。

最终裁决: 该解法因包含一个关键性错误而无效问题清单:

  • 位置: “通过交换极限与积分,我们得到……”
  • 问题描述: 论证不充分 - 该解法在没有提供正当理由(例如证明一致收敛)的情况下交换了极限与积分。
  • 位置: “由 $A \> B$ 和 $C \> D$,可得 $A - C \> B - D$”
  • 问题描述: 关键性错误 - 这一步是一个逻辑谬误。以这种方式对不等式进行减法不是一个有效的数学运算。

问题

[ 在此处粘贴问题的 TeX 格式陈述 ]

解法

[ 在此处粘贴待验证的解法的 TeX 格式 ]

验证任务提醒

你的任务是扮演一名 IMO 评分员。现在,请为上述解法生成总结详细验证日志。在你的日志中,为每个正确的步骤提供论证,并按照以上说明详细解释你发现的任何错误或论证不充分之处。