大语言扩散模型

摘要 该论文挑战了自回归模型 (ARM) 作为大型语言模型 (LLM) 基石的普遍看法,引入了一种从头开始训练的扩散模型 LLaDA 。LLaDA 通过前向数据掩码过程和由标准 Transformer 参数化的反向过程(用于预测被掩码的词元)来建模数据分布 。通过优化似然边界,它为概率推断提供了一种有原则的生成方法 。论文表明 LLaDA 具有强大的可扩展性,在上下文学习方面 LLaDA 8B 能与 LLaMA3 8B 等强LLM相媲美,并在监督微调 (SFT) 后展现出令人印象深刻的指令遵循能力,例如在多轮对话中 。此外,LLaDA 解决了“逆转诅咒”问题,在逆转诗歌补全任务中超越了 GPT-4o 。这些发现确立了扩散模型作为 ARM 的一种可行且有前景的替代方案 。 引言 引言首先指出大型语言模型 (LLM) 完全属于生成模型的范畴,其目标是通过优化模型分布 $p_θ(⋅)$ 来捕捉真实但未知的数据分布 $p_{data}(⋅)$,通常通过最大化对数似然或最小化KL散度实现 当前主流方法依赖自回归模型 (ARM),即下一词元预测范式 自回归范式是否是实现 LLM 智能的唯一路径? 他们认为,LLM 的基本特性(如可扩展性、指令遵循、上下文学习)源于通用的生成模型原理(公式1),而非自回归结构本身 。ARM 自身存在固有限制,如序列化生成计算成本高,以及在逆向推理任务中效果不佳 。受此启发,论文引入 LLaDA(Large Language Diffusion with mAsking),一种基于掩码扩散模型 (MDM) 的方法,通过离散随机掩码过程及其逆过程来构建模型,旨在探索超越 ARM 的生成模型路径 。LLaDA 的贡献主要体现在:证明了扩散模型的可扩展性,展示了其强大的上下文学习能力、指令遵循能力以及解决逆转推理问题的潜力 。 方法 本章详细介绍了 LLaDA 的概率公式、预训练、监督微调 (SFT) 和推理过程。其核心思想是通过一个前向的掩码过程和一个反向的去噪(预测掩码)过程来定义模型分布 $p_θ(x_0)$ 。 在概率公式部分,LLaDA 的核心是一个掩码预测器 $p_θ(⋅∣x_t)$,它接收部分被掩码的序列 $x_t$ 作为输入,并同时预测所有被掩码的词元 (M) 。训练目标是优化: ...

May 22, 2025 · 小茄墩