IMO | 一只小茄墩

《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025》整个流程被分解为以下6步：步骤 1：生成初始解决方案；步骤 2：自我改进；步骤 3：验证解决方案并生成错误报告；步骤 4：审查错误报告；步骤 5：根据错误报告修正或改进解决方案；步骤 6：接受或拒绝。作者发现模型存在“思考预算”（即token限制），一次性生成完整复杂的证明非常困难。因此，他们让模型先生成初步解答，再让它自己“审阅和改进”，这相当于给了模型第二次机会和额外的思考预算来深化推理，这是一个非常实用的技巧。其次，验证者的设计至关重要。它被指令扮演一个极其严格的IMO阅卷人，其任务不是修正错误，而是找出所有问题。最巧妙的做法是将问题分为两类：“关键错误”（Critical Error）和“论证缺陷”（Justification Gap）。如果发现关键错误，该证明路径就被中止；如果只是论证不够严谨，验证者会**“假设此步骤结论为真”**，然后继续检查后续逻辑。这种做法能够最大化地利用部分正确的证明，避免因小瑕疵而全盘放弃。同时，流程中还包括了审查（步骤4），以纠正验证者自身可能犯的错误，最终一个解法需要连续通过5次验证才被接受，确保了结果的高度可靠性。实验设置在参数上，他们选择低“温度” (temperature=0.1)，以减少模型输出的随机性，确保逻辑的稳定性；同时用满了模型的“思考预算” (32768 tokens)，给予模型最充分的思考空间。初始解题提示词（Step 1 Prompt）：核心指令是**“严谨性至上”（Rigor is Paramount）**，明确告诉模型“逻辑错误的正确答案等于失败”。它还引导模型，如果无法得出完整解，就必须诚实地只提交自己能严格证明的“部分成果”，并给出了“部分成果”的定义（如证明一个关键引理）。这种设计极大地抑制了模型的幻觉和猜测行为。 Step 1 Prompt 核心指令严谨至上：您的首要目标是产出完整且经过严谨论证的解法。解法中的每一步都必须逻辑严密、解释清晰。任何基于有缺陷或不完整推理得出的正确最终答案，均视为失败。对完整性保持诚实：如果您无法找到完整的解法，绝不能猜测或编造看似正确但包含隐藏缺陷或论证空白的解法。您只应呈现能严格证明的重要部分结果。若一个部分结果代表了向完整解法迈出的实质性进展，则该结果被认为是重要的。例如：证明一个关键引理。在一个逻辑严密的分类讨论证明中，完全解决一个或多个案例。确立问题中数学对象的某一关键属性。对于优化问题，证明一个上界或下界，而无需证明该界限是可达的。为所有数学内容使用 TeX：所有数学变量、表达式和关系式都必须用 TeX 分隔符包围（例如：‘ Let $n$ be an integer .）。输出格式您的回复必须严格按照以下确切顺序，结构化为下列部分。摘要提供您研究结果的简明概述。此部分必须包含两个部分： a. 定论：清楚说明您是找到了完整的解法，还是部分解法。对于完整的解法：陈述最终答案，例如：“我已成功解决该问题。最终答案是……” 对于部分解法：陈述您能够严格证明的主要结论，例如：“我未能找到完整的解法，但我已严格证明……” b. 方法简述：呈现您解法的高层次概念性大纲。该简述应能让专家在不阅读完整细节的情况下理解您论证的逻辑流程。它应包括： ...