On the Emergence of Thinking in LLMs I: Searching for the Right Intuition
摘要 人工智能的最新进展,例如 OpenAI 的新型 o 模型、谷歌的 Gemini Thinking 模型和 Deepseek R1,正在将大语言模型 (LLM) 转化为大型推理模型 (LRM)。与大语言模型不同,大型推理模型在推理过程中执行思考或推理,需要额外的时间和计算来产生更高质量的输出。这项工作旨在发现训练大型推理模型背后的算法框架。基于自洽性、过程奖励建模、AlphaZero 的方法表明,==推理是一种引导搜索的形式==。基于这一原则,我们提出以下问题:==在大型语言模型的背景下,实现搜索的最简单和最具可扩展性的方法是什么?== 为了回答这些问题,我们提出了一个名为“通过自我博弈进行强化学习”(RLSP)的后训练框架。RLSP 涉及三个步骤:(1)使用人类或合成的推理过程演示进行监督微调;(2)使用探索奖励信号来鼓励多样化和高效的推理行为;(3)使用结果验证器进行强化学习训练,以确保正确性,同时防止奖励黑客行为。我们的主要创新是在 PPO 训练期间解耦探索和正确性信号,仔细平衡它们以提高性能和效率。 我们对数学领域的 RLSP 框架进行了实证研究,结果表明,使用 RLSP 框架训练的模型表现出改进的推理能力。在 Llama-3.1-8B-Instruct 模型上,RLSP 框架可以将 MATH-500 测试集中的性能提高 23%;在 AIME 2024 数学问题上,Qwen2.5-32B-Instruct 由于 RLSP 技术提高了 10%。然而,这项工作更重要的发现是,使用 RLSP 技术训练的模型,即使使用最简单的探索奖励(鼓励模型采取更多中间步骤),也表现出几种涌现行为,例如回溯、探索想法和验证。这些发现表明,当适当扩展时,RLSP 框架可能足以使大语言模型 (LLM) 涌现出复杂的推理能力。 最后,我们提出了一个理论,解释为什么 RLSP 搜索策略比文献中先前考虑的方法更适合大语言模型,这受到最近一项引人注目的结果的启发,该结果表明 CoT 可证明地 提高了大语言模型的计算能力,从而提高了推理能力,并且这些能力随着 CoT 中的步骤数量而增长。 参考文献: 介绍 随着 OpenAI 的 o 系列模型、Google 的 Gemini Thinking 模型以及 Deepseek R1 的发布,大语言模型 (LLM) 正在迅速演变为思考机器,现在被称为大型推理模型 (LRM)。==LLM 和 LRM 之间的关键技术区别在于 LRM 在推理过程中进行思考的能力==,我们将其定义为在(推理)过程中花费更多时间和计算资源,以期为给定的输入产生更高质量的输出,这对于所有能够进行推理的人工和生物系统来说,都是一个合理的思考过程定义。 ...