大模型架构

大语言模型架构大比拼图 1：本文所涵盖的部分架构。自最初的 GPT 架构开发以来，已经过去了七年。乍一看，回顾 GPT-2（2019 年）并展望 DeepSeek-V3 和 Llama 4（2024-2025 年），人们可能会惊讶于这些模型在结构上仍然如此相似。当然，位置嵌入已从绝对位置嵌入演变为旋转位置嵌入（RoPE），多头注意力（Multi-Head Attention）已在很大程度上让位于分组查询注意力（Grouped-Query Attention），而更高效的 SwiGLU 也取代了像 GELU 这样的激活函数。但在这些微小的改进之下，我们是否真正看到了突破性的变化，还是我们仅仅在打磨相同的架构基础？比较大语言模型以确定促成其良好（或不那么好）性能的关键因素是出了名的困难：数据集、训练技术和超参数差异巨大，且通常没有详细记录。然而，我认为，审视架构本身的结构性变化，看看大语言模型开发者在 2025 年都在做些什么，仍然具有很大的价值。（图 1 中展示了其中的一部分。）所以，在本文中，我不会着重介绍基准性能或训练算法，而是将焦点放在定义当今旗舰开源模型的架构发展上。 1. DeepSeek V3/R1 1.1 Multi-Head Latent Attention (MLA) 所以，GQA 的核心思想是通过在多个查询头之间共享键头和值头，从而减少其数量。这样做有两点好处：(1) 降低了模型的参数量；(2) 减少了推理过程中键张量和值张量的内存带宽占用，因为需要从 KV 缓存中存储和检索的键和值变少了。虽然 GQA 主要是一种旨在提升 MHA 计算效率的变通方案，但消融研究（例如原始 GQA 论文和 Llama 2 论文中的研究）表明，在大语言模型建模性能方面，其表现与标准 MHA 不相上下。现在，多头潜在注意力 (Multi-Head Latent Attention, MLA) 提供了另一种不同的内存节省策略，该策略与 KV 缓存的结合效果也特别好。与 GQA 共享键头和值头的方式不同，MLA 在将键张量和值张量存入 KV 缓存之前，会先将它们压缩到一个更低维度的空间。在推理期间，这些被压缩的张量在使用前会被投影回原始尺寸，如下图 3 所示。这个过程增加了一次额外的矩阵乘法，但减少了内存占用。 ...