multi token attention
摘要 Soft attention机制是驱动大语言模型 (LLM) 在给定上下文中定位相关部分的关键机制。然而,单个注意力权重仅由单个查询和键 Token 向量的相似性决定。这种“单 Token 注意力”限制了用于区分相关部分与上下文其余部分的信息量。为了解决这个问题,我们提出了一种新的注意力方法,多 Token 注意力(MTA),它允许大语言模型同时基于多个查询和键向量来调节其注意力权重。这是通过对查询、键和头应用卷积运算来实现的,从而允许附近的查询和键相互影响彼此的注意力权重,以实现更精确的注意力。因此,我们的方法可以使用更丰富、更细致的信息来定位相关上下文,这些信息可以超过单个向量的容量。通过广泛的评估,我们证明了 MTA 在一系列流行的基准测试中实现了增强的性能。值得注意的是,它在标准语言建模任务以及需要在长上下文中搜索信息的任务上优于 Transformer 基线模型,在这些任务中,我们的方法利用更丰富信息的能力被证明特别有益。 多头注意力机制背景 $$ K = H W_k , \quad V = H W_v, \quad Q = H W_q $$$$ \hat{A}={QK^\top}/{\sqrt{d}}, \quad A = \text{Softmax}( \text{Mask}_{-\infty}(\hat{A}) ), \label{eq:attn} $$ 其中 softmax 函数作用于 key 的维度,mask 函数将 $(i,j)$ 位置的值替换为 $-\infty$,当 $i...