MOE

1 Dense & MOE Dense：每次激活全部参数。 MoE ：用一个轻量级的路由器，为每个输入的 Token，动态地、稀疏地选择一小部分专家来激活和计算。专家通常就是FFN。这样做的好处是什么？假设我们有64个专家，但路由器每次只选择2个。那么：参数量巨大：模型的总参数量是64个专家的总和，规模非常庞大，这让它有能力“记忆”更多的世界知识。计算量不变：在一次前向传播中，每个 Token 实际只经过了2个专家的计算。如果每个专家的大小和原始密集模型的FFN大小相仿，那么计算成本（FLOPs）就只增加了路由器的开销，几乎可以忽略不计。一句话总结：MoE 用“总参数量巨大”换取了“知识容量”，同时通过“稀疏激活”维持了极低的“计算成本”。 2 路由器如何选择专家？可以想到有很多种选择方式，但越复杂的规则训练越麻烦，因此目前主流是token选择k个专家。 3 主流top k routing方法 token采用什么方式选择k个专家？比如RL选，运筹学解，但是都太复杂，还是训练复杂的问题。这里介绍主流top k routing方法。我们以处理单个 Token t 的第 l 层 MoE 模块为例，并假设 K=2。第 1 步：输入就位 (Input) 一个 Token 经过前序模块的计算，以向量 $u_t^l$ 的形式抵达 MoE 层。这个向量是该 Token 在当前层的丰富语义表示。第 2 步：计算“亲和度”并归一化 (Affinity Scoring & Normalization) 路由器需要判断该将这个 Token $u_t^l$ 发送给哪个专家。为此，它为每个专家 i 维护一个可学习的“身份”向量 $e_i^l$。路由器通过计算输入向量 $u_t^l$ 与每一个专家身份向量 $e_i^l$ 的点积 (dot product)，来衡量它们之间的“亲和度”或“匹配度”。点积结果越大，代表该专家越适合处理这个 Token。 ...

ICLR2025 oral 摘要虽然大语言模型 (LLM) 在生成任务中表现出色，但如果未应用进一步的representation finetuning，其仅解码器架构通常会限制它们作为嵌入模型的潜力。这是否与它们作为通用模型的声明相矛盾？为了回答这个问题，我们仔细研究了混合专家模型 (MoE) LLM。我们的研究表明，MoE LLM 中的专家路由器可以作为开箱即用的嵌入模型，在各种以嵌入为中心的任务中表现出良好的性能，而无需任何微调。此外，我们广泛的分析表明，MoE 路由权重 (RW) 与 LLM 的隐藏状态 (HS) 互补，而隐藏状态是一种广泛使用的嵌入。与 HS 相比，我们发现 RW 对提示词的选择更具鲁棒性，并且侧重于高级语义。受此分析的启发，我们提出了 [MoEE]，它结合了 RW 和 HS，与单独使用两者相比，实现了更好的性能。我们对它们的组合和提示策略的探索揭示了一些新的见解，例如，RW 和 HS 相似度的加权和优于它们连接后的相似度。我们的实验在来自大规模文本嵌入基准 (MTEB) 的 6 个嵌入任务和 20 个数据集上进行。结果表明，[MoEE] 在不进行进一步微调的情况下，为基于 LLM 的嵌入带来了显着改进。介绍混合专家模型 (MoE) 作为一种多功能的架构，最初在 1990 年代开发，可以通过将任务分配给专门的专家来提高模型泛化能力并降低推理成本。随着时间的推移，MoE 在自然语言处理和计算机视觉等领域越来越突出，尤其是在大语言模型 (LLM) 的开发中越来越受到关注。 MoE 的一个关键组成部分是动态路由器，它可以智能地将每个输入分配给最相关的专家。这使得 MoE 能够根据每个输入的独特特征来定制其计算，从而优化效率和准确性。然而，最近的大多数 LLM 和 MoE LLM 都是建立在仅解码器架构之上的，该架构经过训练用于自回归的下一个 Token 预测。虽然在生成任务方面表现出色，但它们的最终或中间隐藏状态 (HS) 并非旨在捕获输入 Token 的关键特征并涵盖其所有信息。相反，HS 可能会偏向于下一个输出 Token 的信息。尽管提取最后一个 Token 的隐藏状态 (HS) 作为嵌入是一种常见的经验做法，但它甚至可能比专门为嵌入任务训练的较小编码器模型表现得更差。以分类为例，语义略有不同的输入可能与相同的标签相关联，因此旨在预测标签的最后一个 HS 可能会忽略输入差异。尽管专门针对表征学习的额外微调可以大大增强 LLM 作为嵌入模型的能力，但考虑到嵌入任务的广泛应用，这提出了预训练的 LLM 是否可以被称为通用人工智能的问题。 ...

大模型入门：彻底学会MOE

MOE是一个免费的嵌入模型