摘要 我们引入了 DeepSeek-Prover-V2,这是一个开源的大语言模型,专为 Lean 4 中的形式化定理证明而设计,其初始化数据通过由 DeepSeek-V3 驱动的递归定理证明流程收集。冷启动训练过程始于通过提示 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被整合成思维链,结合 DeepSeek-V3 的逐步推理,为强化学习提供初始冷启动。这个过程使我们能够将非形式化和形式化数学推理整合到一个统一的模型中。由此产生的模型 DeepSeek-Prover-V2-671B 在神经定理证明方面取得了最先进的性能,在 MiniF2F-test 上达到了 88.9% 的通过率,并解决了 PutnamBench 中 658 个问题中的 49 个。除了标准基准测试,我们引入了 ProverBench,这是一个包含 325 个形式化问题的集合,以丰富我们的评估,其中包括从近期 AIME 竞赛(24-25 年)中选取的 15 个问题。对这 15 个 AIME 问题的进一步评估显示,该模型成功解决了其中的 6 个。相比之下,DeepSeek-V3 使用多数投票解决了这些问题中的 8 个,这突出表明大语言模型中形式化和非形式化数学推理之间的差距正在大幅缩小。
1. 引言 大语言模型 (LLMs) 推理能力的出现彻底改变了人工智能的众多领域,特别是在数学问题解决领域 (DeepSeek-AI, 2025)。这些进展很大程度上得益于推理阶段的扩展范式,最显著的是通过自然语言思维链推理 (Jaech et al., 2024)。LLMs 不再仅仅依靠一次前向传播来得出答案,而是可以反思中间推理步骤,从而提高准确性和可解释性。尽管自然语言推理在解决竞赛级数学问题方面取得了成功,但其应用于形式化定理证明仍然面临根本性挑战。LLMs 以一种固有的非形式化方式进行自然语言推理,依赖于启发式方法、近似和数据驱动的猜测模式,这些往往缺乏形式化验证系统所需的严格结构。相比之下,Lean (Moura and Ullrich, 2021)、Isabelle (Paulson, 1994) 和 Coq (Barras et al., 1999) 等证明助手在严格的逻辑基础上运行,其中每个证明步骤都必须明确构建并形式化验证。这些系统不允许任何歧义、隐含假设或细节遗漏。弥合非形式化、高层次推理与形式化验证系统的句法严谨性之间的差距,仍然是神经定理证明领域一个长期存在的挑战 (Yang et al., 2024)。为了利用非形式化数学推理的优势来支持形式化定理证明,一种经典方法是根据自然语言证明草图的指导,对形式化证明进行分层分解。Jiang 等人 (2023) 提出了一个名为 Draft, Sketch, and Prove (DSP) 的框架,该框架利用大语言模型生成自然语言的证明草图,然后将其翻译成形式化证明步骤。这种非形式化到形式化的定理证明范式与分层强化学习中的子目标概念非常相似 (Barto and Mahadevan, 2003; Nachum et al., 2018; Eppe et al., 2022),其中复杂的任务被分解为更简单的子任务的层次结构,这些子任务可以独立解决,以逐步实现总体目标。在形式化定理证明中,子目标通常是一个中间命题或引理,有助于证明更大的定理 (Zhao et al., 2023, 2024)。这种分层分解与人类解决问题的策略一致,并支持模块化、可重用性和更高效的证明搜索 (Wang et al., 2024b; Zheng et al., 2024)。最近的研究通过采用多层层次结构进行结构化证明生成 (Wang et al., 2024a),以及利用强化学习技术优化复杂定理分解为可管理子目标 (Dong et al., 2024),进一步扩展了这一范式。
...