ICML25 研究发现RoPE又立大功了!

《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》 作者揭示了一个有悖常理的现象:在注意力机制中,极端数值异常地聚集于 Query (Q) 与 Key (K) 的表征区域,而 Value (V) 中则无此现象。值得注意的是,未使用 RoPE(旋转位置编码,如 GPT-2 模型)的模型中并未观察到这一特性。 此类极端数值对模型的上下文理解能力至关重要,相较之下,其对于参数化知识的倚重程度则较低。实验显示,若此类数值受到干扰,模型仍能回忆既有事实(例如,回答“中国首都是哪里?”),但在需要依赖上下文的任务中(如 GSM8K 数学推理测试),其表现则会显著下滑。 那些特意保留这些极端数值的量化技术(例如 AWQ 和 SmoothQuant)能够维持模型的原有性能;反之,若采用未能保留这些数值的方法(例如 GPTQ),模型的上下文推理能力将遭受重创。 当作者刻意让上下文信息与模型的内在知识产生冲突时,发现 LLMs (大语言模型) 的表现与随机猜测无异。然而,有选择地扰动那些“巨大值”反而提升了模型的准确率,这暗示 LLMs (大语言模型) 在默认情况下更倾向于依赖其内部知识,而这些“巨大值”则在引导模型理解上下文方面扮演着关键角色。 这种“巨大值”高度集中的现象,其根源直接指向 Rotary Position Encoding (RoPE) 技术。具体来说,RoPE 技术仅选择性地作用于 Query (Q) 和 Key (K) 向量,而将 Value (V) 排除在外,从而导致了极端数值在 Q 和 K 表征中的独特聚集。 在涵盖自回归 LLM (大语言模型) 及多模态模型等多种 Transformer 架构中,作者均一致地观察到了这种“巨大值”集中的现象。这进一步印证了作者的假说,即 RoPE 是驱动 QK 表征中结构化“巨大值”出现的根本原因。 ...

May 11, 2025 · 小茄墩