当今旗舰开源大语言模型架构大比拼
大语言模型架构大比拼 图 1:本文所涵盖的部分架构。 自最初的 GPT 架构开发以来,已经过去了七年。乍一看,回顾 GPT-2(2019 年)并展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人们可能会惊讶于这些模型在结构上仍然如此相似。当然,位置嵌入已从绝对位置嵌入演变为旋转位置嵌入(RoPE),多头注意力(Multi-Head Attention)已在很大程度上让位于分组查询注意力(Grouped-Query Attention),而更高效的 SwiGLU 也取代了像 GELU 这样的激活函数。但在这些微小的改进之下,我们是否真正看到了突破性的变化,还是我们仅仅在打磨相同的架构基础? 比较大语言模型以确定促成其良好(或不那么好)性能的关键因素是出了名的困难:数据集、训练技术和超参数差异巨大,且通常没有详细记录。然而,我认为,审视架构本身的结构性变化,看看大语言模型开发者在 2025 年都在做些什么,仍然具有很大的价值。(图 1 中展示了其中的一部分。) 所以,在本文中,我不会着重介绍基准性能或训练算法,而是将焦点放在定义当今旗舰开源模型的架构发展上。 1. DeepSeek V3/R1 1.1 Multi-Head Latent Attention (MLA) 所以,GQA 的核心思想是通过在多个查询头之间共享键头和值头,从而减少其数量。这样做有两点好处:(1) 降低了模型的参数量;(2) 减少了推理过程中键张量和值张量的内存带宽占用,因为需要从 KV 缓存中存储和检索的键和值变少了。 虽然 GQA 主要是一种旨在提升 MHA 计算效率的变通方案,但消融研究(例如原始 GQA 论文和 Llama 2 论文中的研究)表明,在 大语言模型建模性能方面,其表现与标准 MHA 不相上下。现在,多头潜在注意力 (Multi-Head Latent Attention, MLA) 提供了另一种不同的内存节省策略,该策略与 KV 缓存的结合效果也特别好。与 GQA 共享键头和值头的方式不同,MLA 在将键张量和值张量存入 KV 缓存之前,会先将它们压缩到一个更低维度的空间。 在推理期间,这些被压缩的张量在使用前会被投影回原始尺寸,如下图 3 所示。这个过程增加了一次额外的矩阵乘法,但减少了内存占用。 ...