并行推理 | 一只小茄墩

《Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation 》这篇论文的核心是提出了一种名为“Multiverse”的新型生成模型框架，旨在让大型语言模型（LLM）能够实现原生的并行生成。这个框架的灵感来源于一个关键发现：传统的自回归模型在生成长序列（如解题步骤）时，其输出内容在逻辑上已经隐含了可以并行的部分。Multiverse 模型将经典的 MapReduce 计算范式（一种分而治之的思想）内化到了模型结构中，通过三个阶段进行工作：首先是 Map（映射）阶段，模型自主地分析任务并将其分解为多个子任务；其次是 Process（处理）阶段，模型并行地执行这些独立的子任务；最后是 Reduce（规约）阶段，模型将所有并行分支的结果无损地合并，并生成最终结论。为了实现这一框架，研究者们进行了一套完整的“协同设计”，涵盖了数据、算法和系统三个层面，并成功地将一个强大的自回归模型（Qwen-2.5-32B）用极低的成本（1000个样本，3小时训练）转化为了 Multiverse 模型。最终结果表明，该模型在保持与顶尖自回归模型相当的推理性能的同时，由于其并行生成能力，获得了最高可达2倍的推理速度提升。我们能否设计一个模型，让它能“智能地”决定何时拆分任务进行并行处理，何时合并结果，并且整个过程都在模型内部无缝完成？这为 Multiverse 框架的提出奠定了基础，即让模型学会自己做“项目管理”，从单线程工作者进化为高效的多任务团队。长链思维（CoT）生成：逻辑上是顺序还是并行？深入分析了现有顶尖模型生成的长篇推理数据。他们发现，超过98%的推理案例中都存在可以并行的部分。他们将这些并行模式分为两类：集体性分支（Collective Branches），比如分析一个问题的多个方面，所有方面的结果最后都要用到；以及选择性分支（Selective Branches），比如探索多种解题思路，最后只选择最有效的一种。更关键的一步是，他们通过“提示测试”（Prompting Test）和“探针测试”（Probing Test）证明，尽管这些模型能无意识地生成含并列逻辑的内容，但它们实际上无法主动地、显式地去规划和识别这种并行结构。这就像一个人虽然可以说出包含并列关系的话，但他自己并没有意识到“并列”这个语法结构。这个发现非常重要，它说明了现有模型“知其然，而不知其所以然”，从而论证了创造一个能主动理解和运用并行思维的新模型框架的必要性。为原生并行生成模型设计 Multiverse Multiverse 框架的理论核心，最具创造性的做法是将 MapReduce 思想和一套特殊的“控制标签”结合起来，从而在模型层面实现了对生成流程的精确控制。其核心流程分为三步： 1. Map（映射）阶段，模型首先生成一个任务分解计划，就像一个项目经理写下任务大纲； 2. Process（处理）阶段，模型根据计划，在多个独立的“路径”（Path）中并行生成内容，每个路径处理一个子任务； 3. Reduce（规约）阶段，当所有路径都完成后，模型将所有路径的输出信息整合起来，进行总结和最终推理。为了让模型和推理系统能够“听懂”这个流程，作者设计了一套类似XML的控制标签，例如 <Parallel> 标志着并行块的开始，<Goal> 和 <Outline> 定义了总目标和各个子任务，<Path> 包裹着每个并行的处理过程，而 <Conclusion> 则触发最终的合并与总结。这种设计非常巧妙，它把复杂的并行逻辑控制问题，转化成了一个模型生成特定“指令文本”的问题，让模型能够自我指导其生成过程，实现了“代码即流程”。构建一个真实世界中的 Multiverse 模型其核心思想是“数据、算法、系统”三位一体的协同设计，每一步都充满了巧思。 5.1 数据管理 (Data Curation)：最大的难题是“从0到1”——没有现成的并行化训练数据。作者的解决方案“Multiverse Curator”是一个极具启发性的自动化数据处理流水线。它使用一个强大的LLM（Gemini 2.5 Pro）作为“数据标注员”，通过五步提示工程，将现有的海量、高质量的“顺序”推理数据，自动转换为带有并行结构标签的 Multiverse 数据格式。这五个步骤包括：解析为树状摘要、识别并行节点、用控制标签重构、填回原始内容、添加Map/Reduce阶段并重写路径以保证独立性。这个方法极大地降低了数据准备的成本，为训练新架构模型提供了一条捷径。 ...