《Interleaved Reasoning for Large Language Models via Reinforcement Learning》

这篇论文的核心思想是解决大型语言模型在进行长链式思考(CoT)时响应速度慢(即“首个token时间”TTFT过长)和容易中途出错的问题。研究者提出了一种名为“交错推理”(Interleaved Reasoning)的全新训练模式,通过强化学习(RL)来引导模型在“思考”和“回答”之间来回切换。这种方法不仅能将用户的等待时间(TTFT)平均减少超过80%,还能将解题的正确率(Pass@1)提升高达19.3%。最关键的是,这种方法不依赖任何外部工具,并且在仅用问答和逻辑推理数据集训练后,模型能在数学(MATH)、物理(GPQA)等它从未见过的复杂推理任务上表现出色,展现了强大的泛化能力。

image-20250612221617753

“先思考后回答”(think-answer)模式存在两个主要弊端。首先,模型需要生成一长串完整的思考过程后才能给出第一个字的答案,这在对话式应用中会造成明显的延迟,影响用户体验。其次,由于奖励信号只在最终答案产生后才出现,如果模型在思考的早期步骤就犯了错,这个错误会一直延续下去,导致最终结果不准确,造成所谓的“过度思考”或“思考不足”。作者们从人类交谈中获得启发,我们通常会给出阶段性的反馈来表示理解。因此,他们提出“交错推理”,让模型把复杂问题分解成小步骤,每完成一步就给出一个小结(sub-answer),这样不仅能立即给用户反馈,还能利用这些中间答案作为更密集的监督信号来指导后续的推理,从而让训练更有效。

目前,利用强化学习提升模型推理能力主要依赖两种奖励模型:结果奖励模型(ORM)只看最终答案对错,过程奖励模型(PRM)则对思考过程中的每一步进行打分。PRM虽然能提供更密集的反馈,但往往需要大量人工标注或训练一个额外的复杂模型,实施起来很困难。本文提出的方法巧妙地结合了两者的优点:它像PRM一样关注中间步骤,但实现上却像ORM一样简单,仅使用基于规则的奖励来给正确的中间答案“记功”,而无需一个专门的奖励模型。这与其他工作要么依赖外部工具(如搜索引擎),要么只关注缩短推理长度不同,本文更侧重于激发和利用模型自身生成可验证的中间答案的能力。

为交错推理训练大语言模型

image-20250612221643391

如何训练模型学会“交错推理”。其关键步骤如下:首先,他们定义了一种新的交互模式,通过在<think><answer>这两个特殊标签中引导模型进行思考和回答,形成一种<think>...<answer>...<think>...<answer>...的交错生成格式。其次,他们将这个过程构建为一个强化学习问题,其目标函数为:

image-20250612221422902

即在最大化奖励的同时,通过KL散度惩罚项防止模型偏离原始模型太远。最关键的创新在于其奖励设计,特别是“条件性中间准确率奖励”。研究发现,如果一开始就对不成熟的中间步骤给予奖励,模型可能会为了局部正确而牺牲最终的全局正确性。因此,他们设计了一个巧妙的条件机制:只有当模型的最终答案正确、输出格式合规、且在当前批次的学习中表现出进步时,才会对正确的中间步骤给予额外奖励。其奖励函数可以表示为:

image-20250612221500680

其中中间奖励$r_{intermcdiate}$是有条件触发的。

image-20250612221524484

这种“扶优扶强”的策略确保了模型首先学会走对路,然后再学习如何把路走得更漂亮、更高效。

主要实验

实验部分验证了“交错推理”方法的有效性。研究者们使用了15亿和70亿参数的Qwen2.5模型,并在两类数据集上进行了测试:一类是用于训练的“域内”数据集(如逻辑题K&K和多跳问答Musique),另一类是模型从未见过的“域外”数据集(如GPQA、MMLU和MATH)来检验其泛化能力。他们将自己的方法(Interleave + IR,即带中间奖励的交错推理)与多种基线方法(如直接回答、标准链式思考CoT、以及标准的“先思考后回答”式强化学习)进行对比。结果非常显著:与“先思考后回答”的基线相比,他们的方法在所有数据集上都实现了超过80%的TTFT(首个token时间)降低,这意味着用户能快大约五倍得到有用的信息。同时,Pass@1准确率也得到了显著提升,尤其是在15亿参数的模型上相对提升了19.3%。这证明了“交错推理”不仅大幅提升了模型的响应速度和互动性,还实实在在地增强了其推理的准确性。

image-20250612221712010

image-20250612221724726