模型推理 | 一只小茄墩

Multiverse: 如何让大模型实现原生并行生成？

《Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation 》这篇论文的核心是提出了一种名为“Multiverse”的新型生成模型框架，旨在让大型语言模型（LLM）能够实现原生的并行生成。这个框架的灵感来源于一个关键发现：传统的自回归模型在生成长序列（如解题步骤）时，其输出内容在逻辑上已经隐含了可以并行的部分。Multiverse 模型将经典的 MapReduce 计算范式（一种分而治之的思想）内化到了模型结构中，通过三个阶段进行工作：首先是 Map（映射）阶段，模型自主地分析任务并将其分解为多个子任务；其次是 Process（处理）阶段，模型并行地执行这些独立的子任务；最后是 Reduce（规约）阶段，模型将所有并行分支的结果无损地合并，并生成最终结论。为了实现这一框架，研究者们进行了一套完整的“协同设计”，涵盖了数据、算法和系统三个层面，并成功地将一个强大的自回归模型（Qwen-2.5-32B）用极低的成本（1000个样本，3小时训练）转化为了 Multiverse 模型。最终结果表明，该模型在保持与顶尖自回归模型相当的推理性能的同时，由于其并行生成能力，获得了最高可达2倍的推理速度提升。我们能否设计一个模型，让它能“智能地”决定何时拆分任务进行并行处理，何时合并结果，并且整个过程都在模型内部无缝完成？这为 Multiverse 框架的提出奠定了基础，即让模型学会自己做“项目管理”，从单线程工作者进化为高效的多任务团队。长链思维（CoT）生成：逻辑上是顺序还是并行？深入分析了现有顶尖模型生成的长篇推理数据。他们发现，超过98%的推理案例中都存在可以并行的部分。他们将这些并行模式分为两类：集体性分支（Collective Branches），比如分析一个问题的多个方面，所有方面的结果最后都要用到；以及选择性分支（Selective Branches），比如探索多种解题思路，最后只选择最有效的一种。更关键的一步是，他们通过“提示测试”（Prompting Test）和“探针测试”（Probing Test）证明，尽管这些模型能无意识地生成含并列逻辑的内容，但它们实际上无法主动地、显式地去规划和识别这种并行结构。这就像一个人虽然可以说出包含并列关系的话，但他自己并没有意识到“并列”这个语法结构。这个发现非常重要，它说明了现有模型“知其然，而不知其所以然”，从而论证了创造一个能主动理解和运用并行思维的新模型框架的必要性。为原生并行生成模型设计 Multiverse Multiverse 框架的理论核心，最具创造性的做法是将 MapReduce 思想和一套特殊的“控制标签”结合起来，从而在模型层面实现了对生成流程的精确控制。其核心流程分为三步： 1. Map（映射）阶段，模型首先生成一个任务分解计划，就像一个项目经理写下任务大纲； 2. Process（处理）阶段，模型根据计划，在多个独立的“路径”（Path）中并行生成内容，每个路径处理一个子任务； 3. Reduce（规约）阶段，当所有路径都完成后，模型将所有路径的输出信息整合起来，进行总结和最终推理。为了让模型和推理系统能够“听懂”这个流程，作者设计了一套类似XML的控制标签，例如 <Parallel> 标志着并行块的开始，<Goal> 和 <Outline> 定义了总目标和各个子任务，<Path> 包裹着每个并行的处理过程，而 <Conclusion> 则触发最终的合并与总结。这种设计非常巧妙，它把复杂的并行逻辑控制问题，转化成了一个模型生成特定“指令文本”的问题，让模型能够自我指导其生成过程，实现了“代码即流程”。构建一个真实世界中的 Multiverse 模型其核心思想是“数据、算法、系统”三位一体的协同设计，每一步都充满了巧思。 5.1 数据管理 (Data Curation)：最大的难题是“从0到1”——没有现成的并行化训练数据。作者的解决方案“Multiverse Curator”是一个极具启发性的自动化数据处理流水线。它使用一个强大的LLM（Gemini 2.5 Pro）作为“数据标注员”，通过五步提示工程，将现有的海量、高质量的“顺序”推理数据，自动转换为带有并行结构标签的 Multiverse 数据格式。这五个步骤包括：解析为树状摘要、识别并行节点、用控制标签重构、填回原始内容、添加Map/Reduce阶段并重写路径以保证独立性。这个方法极大地降低了数据准备的成本，为训练新架构模型提供了一条捷径。 ...

“交错推理”减少首token耗时

《Interleaved Reasoning for Large Language Models via Reinforcement Learning》这篇论文的核心思想是解决大型语言模型在进行长链式思考（CoT）时响应速度慢（即“首个token时间”TTFT过长）和容易中途出错的问题。研究者提出了一种名为“交错推理”（Interleaved Reasoning）的全新训练模式，通过强化学习（RL）来引导模型在“思考”和“回答”之间来回切换。这种方法不仅能将用户的等待时间（TTFT）平均减少超过80%，还能将解题的正确率（Pass@1）提升高达19.3%。最关键的是，这种方法不依赖任何外部工具，并且在仅用问答和逻辑推理数据集训练后，模型能在数学（MATH）、物理（GPQA）等它从未见过的复杂推理任务上表现出色，展现了强大的泛化能力。 “先思考后回答”（think-answer）模式存在两个主要弊端。首先，模型需要生成一长串完整的思考过程后才能给出第一个字的答案，这在对话式应用中会造成明显的延迟，影响用户体验。其次，由于奖励信号只在最终答案产生后才出现，如果模型在思考的早期步骤就犯了错，这个错误会一直延续下去，导致最终结果不准确，造成所谓的“过度思考”或“思考不足”。作者们从人类交谈中获得启发，我们通常会给出阶段性的反馈来表示理解。因此，他们提出“交错推理”，让模型把复杂问题分解成小步骤，每完成一步就给出一个小结（sub-answer），这样不仅能立即给用户反馈，还能利用这些中间答案作为更密集的监督信号来指导后续的推理，从而让训练更有效。目前，利用强化学习提升模型推理能力主要依赖两种奖励模型：结果奖励模型（ORM）只看最终答案对错，过程奖励模型（PRM）则对思考过程中的每一步进行打分。PRM虽然能提供更密集的反馈，但往往需要大量人工标注或训练一个额外的复杂模型，实施起来很困难。本文提出的方法巧妙地结合了两者的优点：它像PRM一样关注中间步骤，但实现上却像ORM一样简单，仅使用基于规则的奖励来给正确的中间答案“记功”，而无需一个专门的奖励模型。这与其他工作要么依赖外部工具（如搜索引擎），要么只关注缩短推理长度不同，本文更侧重于激发和利用模型自身生成可验证的中间答案的能力。为交错推理训练大语言模型如何训练模型学会“交错推理”。其关键步骤如下：首先，他们定义了一种新的交互模式，通过在<think>和<answer>这两个特殊标签中引导模型进行思考和回答，形成一种<think>...<answer>...<think>...<answer>...的交错生成格式。其次，他们将这个过程构建为一个强化学习问题，其目标函数为：即在最大化奖励的同时，通过KL散度惩罚项防止模型偏离原始模型太远。最关键的创新在于其奖励设计，特别是“条件性中间准确率奖励”。研究发现，如果一开始就对不成熟的中间步骤给予奖励，模型可能会为了局部正确而牺牲最终的全局正确性。因此，他们设计了一个巧妙的条件机制：只有当模型的最终答案正确、输出格式合规、且在当前批次的学习中表现出进步时，才会对正确的中间步骤给予额外奖励。其奖励函数可以表示为：其中中间奖励$r_{intermcdiate}$是有条件触发的。这种“扶优扶强”的策略确保了模型首先学会走对路，然后再学习如何把路走得更漂亮、更高效。主要实验实验部分验证了“交错推理”方法的有效性。研究者们使用了15亿和70亿参数的Qwen2.5模型，并在两类数据集上进行了测试：一类是用于训练的“域内”数据集（如逻辑题K&K和多跳问答Musique），另一类是模型从未见过的“域外”数据集（如GPQA、MMLU和MATH）来检验其泛化能力。他们将自己的方法（Interleave + IR，即带中间奖励的交错推理）与多种基线方法（如直接回答、标准链式思考CoT、以及标准的“先思考后回答”式强化学习）进行对比。结果非常显著：与“先思考后回答”的基线相比，他们的方法在所有数据集上都实现了超过80%的TTFT（首个token时间）降低，这意味着用户能快大约五倍得到有用的信息。同时，Pass@1准确率也得到了显著提升，尤其是在15亿参数的模型上相对提升了19.3%。这证明了“交错推理”不仅大幅提升了模型的响应速度和互动性，还实实在在地增强了其推理的准确性。

Qwen团队：LLM的推理过程的“关键少数”原则

《Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning》Qwen团队和清华LeapLab团队出品 👍 这篇论文的核心观点是，在通过强化学习（RL）提升大语言模型（LLM）的推理能力时，并非所有词元（token）都同等重要。研究者发现，在模型的推理过程中，只有一小部分“高熵”的少数词元（大约20%）扮演着关键的“岔路口”角色，引导着推理的方向，而大部分“低熵”词元只是在已确定的路径上进行填充。基于此，他们提出了一种创新的训练方法：在强化学习中，只针对这20%的“岔路口词元”（forking tokens）进行策略更新。实验结果惊人地发现，这种方法不仅没有降低性能，反而在Qwen3-32B等大模型上取得了远超于使用全部词元进行训练的效果（例如在AIME'25测试上提升了11.04分）。相反，如果只训练那80%的低熵词元，模型性能会急剧下降。这揭示了强化学习之所以能有效提升推理能力，其根本原因在于优化了那些决定推理方向的高熵关键少数词元。目前在带可验证奖励的强化学习（RLVR）训练时存在一个认知盲区。现有方法通常对生成的所有词元一视同仁地进行训练，没有区分它们在推理过程中扮演的不同功能角色，这可能限制了模型性能的进一步提升。为此，本研究提出了一个全新的视角：通过分析“词元熵”的模式来理解RLVR的内部机制。作者预告了他们的核心发现：推理过程中的词元可以被分为两类，一类是少数高熵的“岔路口词元”（forking tokens），它们负责引导推理走向不同路径；另一类是多数低熵的“跟随者词元”，负责沿着路径填充内容。论文的主要贡献就是验证了只对前者进行强化学习训练，可以在更大型的模型上取得远超传统方法的性能，这揭示了高熵少数词元在推理能力提升中的决定性作用。预备知识 “词元熵”的计算，其公式为 $H_{t}:=-\sum_{j=1}^{V}p_{t,j}\log p_{t,j}$ 。需要明确的是，这里的熵衡量的是在生成某个词元时，模型对于词汇表中所有可能词元的概率分布的不确定性，而不是针对某个被采样出的特定词元。简单来说，熵越高，代表模型在这一步的选择越不确定，面临的可能路径越多。其次，文章介绍了作为实验基础的RLVR算法，特别是DAPO算法。DAPO是一种先进的、无需价值网络的强化学习算法，它通过比较一批生成回复的最终奖励好坏来估算优势，并结合了“clip-higher”等机制来稳定和优化训练过程，是目前效果最好的RLVR算法之一。分析思维链推理中的词元熵研究者让Qwen3-8B模型解答数学问题，并收集了超过一百万个词元的熵数据进行分析。第一个模式是，词元熵的分布极不均匀：超过一半的词元熵值极低（接近于0），而只有20%的词元拥有较高的熵值。第二个模式是，高熵词元和低熵词元在功能上泾渭分明。通过分析具体词语发现，高熵词元通常是那些引导逻辑、引入假设或做出转折的词，如“然而(however)”、“假设(suppose)”、“因此(thus)”等，它们如同推理路径上的“岔路口” 。而低熵词元则多为单词后缀或固定的数学符号，负责完成句子结构，具有很高的确定性。为了验证“岔路口词元”的重要性，研究者还做了一个巧妙的实验：在生成回答时，只提高岔路口词元的解码温度（即增加随机性），结果模型性能显著提升；反之则性能下降，这定量地证实了在这些关键决策点上保持较高的不确定性是有益的。 RLVR保留并强化基础模型的熵模式在RLVR训练过程中，有两个核心发现。第一，RLVR在很大程度上保留了原始基础模型的熵模式。通过对比训练过程中不同阶段模型的高熵词元位置，发现即便是训练完成后的模型，其高熵词元的位置与初始模型相比仍有超过86%的重叠度。这说明，哪些位置应该是不确定的“岔路口”，在模型预训练后就基本定型了，强化学习并未大规模改变它。第二，RLVR的训练效果主要体现在对高熵词元的熵值进行调整。数据显示，初始熵越高的词元，在RLVR训练后其熵值的变化也越大；而那些低熵词元的熵值在整个训练过程中则基本保持稳定，波动很小。这表明，强化学习的优化过程，是聚焦于那些关键的“岔路口”，去调整在这些点上的选择倾向，而不是去改变整个推理路径的结构。高熵少数词元驱动有效的RLVR 研究者修改了DAPO强化学习算法的目标函数，加入了一个指示函数$\mathbb{I}[H_{t}^{i}\ge\tau_{\rho}^{B}]$ 。这个函数的作用相当于一个“开关”，它只允许每批数据中熵值排名前$\rho$（实验中主要设为20%）的词元参与策略梯度的计算和模型更新，而忽略掉其余80%的低熵词元。实验结果非常有力：在Qwen3-14B和Qwen3-32B这样的大模型上，这种“只训练20%关键少数”的方法，其性能显著超过了使用100%全部词元进行训练的传统方法。反之，如果只用那80%的低熵词元来训练，模型性能会严重下降。作者认为，这背后的原因是高熵词元对于强化学习中的“探索”至关重要，而只保留约20%的最高熵词元，恰好在探索和训练稳定性之间取得了最佳平衡。并且，这种性能增益随着模型规模的增大而越发明显，显示出良好的扩展趋势。讨论第一，它为“为什么强化学习（RL）能泛化而监督微调（SFT）易于记忆”这一问题提供了新解释。作者推测，RL之所以泛化能力强，可能是因为它在训练中保持甚至增加了“岔路口词元”的熵，从而保留了推理路径的灵活性；而SFT倾向于将模型输出推向确定性的答案，降低了这些词元的熵，导致推理路径变得僵化。第二，它解释了为何LLM的推理过程与传统RL任务不同。传统RL任务的动作熵可以很均匀，而LLM因为经过海量文本预训练，大部分语言都遵循固定模式（低熵），只有少数地方需要做真正的决策（高熵），这种独特的熵分布是由其语言模型的本质决定的。第三，它指出了在LLM中直接使用“熵奖励”来鼓励探索可能并非最佳选择。因为这会错误地增加那些本应确定的低熵词元的不确定性，破坏语言的流畅性。相比之下，DAPO算法中的“clip-higher”机制则更优越，因为它能间接地、更精准地作用于高熵词元，在需要探索的地方进行探索。刚好近期看到了一个类似的大模型比赛，阿里天池上的AFAC大赛：赛题三《金融领域中的长思维链压缩》，关注“长思维链”处理问题，任务目标——“构建高效的推理链压缩方法”、“保留关键推理逻辑，剔除冗余内容”。有三个大模型方向的赛题，感兴趣的同学可以一试，7.19前截止。奖励也不错，百万奖金+校招直通！

累积互信息量越高，模型预测错误率越低

《Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning》本文中，作者从信息论的视角研究了大型推理模型的推理轨迹。通过追踪大型推理模型在推理过程中，其中间表征与正确答案之间互信息（MI）的演变，作者观察到一个有趣的“互信息峰值”现象：在特定的生成步骤中，互信息在模型的推理过程中会出现突然且显著的增加。作者从理论上分析了这种现象，并证明了随着互信息的增加，模型的预测错误概率会降低。此外，这些互信息峰值通常对应着表达反思或转折的词元，例如“Hmm”、“Wait”和“Therefore”，作者将其称为“思考词元”。作者接着证明了，这些思考词元对大型推理模型的推理性能至关重要，而其他词元的影响则微乎其微。基于这些分析，作者通过巧妙地利用这些思考词元，提出了两种简单而有效的方法来提升大型推理模型的推理性能。总的来说，作者的工作为大型推理模型的推理机制提供了新颖的见解，并为其推理能力的提升提供了实用的方法。大型推理模型推理轨迹中互信息峰值的涌现首先，在模型进行一步步推理生成答案的过程中，研究者会提取每一步生成的词元所对应的内部隐藏状态（hidden representation），记为$h_t$。同时，他们也将最终的正确答案（golden answer）输入模型，得到一个代表正确答案的隐藏状态$h_y$。接着，本文最核心的操作是利用一种名为“希尔伯特-施密特独立性准则”（HSIC）的工具来估计每一步的$h_t$与最终答案$h_y$之间的互信息（MI）值，因为直接计算高维空间中的MI非常困难，而HSIC是一个有效的替代估计方法。通过对多个大型推理模型（如DeepSeek-R1系列）进行实验，他们一致地观察到，MI值在大部分推理步骤中都比较平稳和低，但在某些稀疏且不规律的节点上会突然出现显著的峰值。为了解释这一现象为何重要，论文从理论上给出了两个不等式（定理1和定理2），证明了模型在推理过程中积累的互信息总量（$\sum_{j=1}^{T}I(y;h_{j}|h_{

Chain of Draft

摘要大语言模型 (LLM) 在解决复杂的推理任务方面表现出了卓越的性能，这得益于诸如思维链 (CoT) 提示等机制，该机制强调冗长、逐步的推理过程。然而，人类通常采用一种更为高效的策略：起草简洁的中间想法，仅捕捉必要的关键信息。在这项工作中，我们提出了一种新颖的范式——Chain of Draft (CoD)，它受到人类认知过程的启发，旨在让大语言模型在解决任务时生成最小化但信息丰富的中间推理输出。通过减少冗余信息并专注于关键见解，CoD 在准确性方面能够与 CoT 相媲美甚至超越 CoT，同时仅消耗 7.6% 的 Token，从而显著降低了各种推理任务的成本和延迟。介绍 OpenAI o1 和 DeepSeek R1 等推理模型的最新进展，已推动大语言模型 (LLM) 借助思维链 (CoT) 等技术，在复杂任务上达到前所未有的性能。这种范式鼓励模型将问题分解为逐步探索的过程，模仿人类的结构化推理方式。尽管这种方法非常有效，但它在推理阶段需要消耗大量的计算资源，导致输出冗长且延迟较高。这种冗长性与人类解决问题的方式形成了鲜明对比：我们通常依赖简洁的草稿或速记笔记来捕捉关键见解，避免不必要的详细阐述。受此差异的启发，我们提出了一种名为 Chain of Draft (CoD) 的新型提示词策略。该策略通过优先考虑效率和极简主义，使模型推理过程更贴近人类的思维模式。与冗长的中间步骤不同，Chain of Draft 鼓励大语言模型在每个步骤中生成简洁且信息密集的输出。这种方法可以在不牺牲准确性的前提下，降低延迟和计算成本，从而使大语言模型更适用于对效率有较高要求的实际应用。草稿链背后的直觉源于人类外化思考的方式。在解决复杂任务时——无论是解决数学问题、撰写文章还是编写代码——我们通常只记录下有助于我们取得进展的关键信息。通过模仿这种行为，大语言模型可以专注于推进解决方案，避免冗长的推理过程带来的额外开销。为了评估草稿链的有效性，我们对各种需要多步骤推理的基准测试进行了实验，包括算术推理、常识推理和符号推理。实验结果表明，与标准的思维链方法相比，这种极简方法在保持甚至提高准确性的同时，显著降低了 Token 消耗量和延迟。本文的贡献主要体现在以下三个方面：我们提出了一种受人类认知过程启发的简洁推理提示策略，即草稿链。我们通过实验验证了草稿链可以在不牺牲准确性的前提下，显著降低延迟和成本。我们探讨了草稿链对大语言模型的设计、部署和实际应用的影响。相关工作最近，涌现出各种推理语言模型，包括 OpenAI 的 o1、阿里巴巴的 QwQ 和 DeepSeek 的 R1，它们在解决复杂任务方面表现出显著的改进。这些模型利用结构化推理方法来增强鲁棒性和问题解决能力。“思维链”（Chain-of-Thought，CoT）推理的概念为大语言模型（LLM）中的推理建立了一种基础方法。在此基础上，出现了更复杂的拓扑结构，如树和图，使大语言模型能够解决日益复杂的问题。其他增强功能包括自洽性 CoT，它结合了验证和反思机制来增强推理可靠性；以及 ReAct，它将工具使用集成到推理过程中，允许大语言模型访问外部资源和知识。这些创新共同扩展了大语言模型在各种应用中的推理能力。虽然结构化推理能够显著提升大语言模型解决复杂问题的能力，但同时也大幅增加了得出最终答案前的 Token 消耗。这使得结构化推理难以应用于对成本和延迟都较为敏感的场景。此外，模型常常缺乏对任务复杂度的感知，即使面对简单任务也容易过度思考，造成不必要的资源浪费。诸如流式传输等技术，旨在通过逐步提供部分输出来降低感知延迟，而非等待生成完整的输出序列。然而，这种方法无法完全缓解整体延迟或计算成本，并且通常不适用于思维链推理，因为中间步骤往往不适合直接呈现给最终用户。 @skeleton_of_thought 提出了 Skeleton-of-Thought (SoT)，这是一种首先引导大语言模型 (LLM) 生成答案的骨架轮廓，然后并行解码以减少延迟的方法。虽然 SoT 有助于降低延迟，但它并没有降低计算成本，并且仅限于可以有效并行化的问题。 @draft_n_verify 采取了不同的方法，它首先通过选择性地跳过中间层，以较低的质量但更高的速度生成草稿 Token，然后在单个前向传递中验证草稿。我们的方法 CoD 可以与这些方法结合使用，以进一步减少延迟。 ...