苹果开源超大规模Embedding交互可视化工具

《apple/embedding-atlas》 《EMBEDDING ATLAS: Low-Friction, Interactive Embedding Visualization》 现有的高维数据可视化工具(Embedding Visualization Tools)在使用上存在很多“摩擦点”,比如数据处理繁琐、扩展性差、无法与其他分析流程顺畅结合等,这大大降低了用户使用这些工具探索数据的意愿和效率。为了解决这些问题,论文提出了一款名为EMBEDDING ATLAS的新工具。该工具旨在提供一种“低摩擦”的交互式体验,让用户能尽可能轻松地探索大规模高维数据。它的关键做法是利用了现代网页技术(如WebAssembly)、高效算法(如基于密度的聚类和自动标签)以及强大的后端支持,从而实现了在浏览器中就能快速、流畅地分析数百万个数据点,并且该工具是开源的,方便社区在此基础上进行二次开发和研究。 3. EMBEDDING ATLAS 特性 首先,通过一个分析约20万条红酒评论的实例,生动地展示了用户(数据分析师ROBIN)如何通过简单的拖拽文件、点击选择,就能自动完成数据嵌入、降维、聚类和可视化,并结合价格、产地等元数据进行交互式探索,最终还能将筛选出的数据子集方便地导出。这体现了其“低摩擦”的设计理念。接着,文章提炼了8大核心特性(F1-F8):F1,实现了对海量数据的快速交互式渲染;F2,提供了嵌入视图、图表、表格等多种视图的协同联动;F3,能自动对数据进行聚类并生成标签;F4,支持通过密度等高线图来快速识别数据分布的疏密;F5,可以实时搜索并查找任何数据点的近邻;F6,提供了可选的在浏览器内直接计算向量和降维的功能,免去了环境配置的麻烦;F7,支持从本地或Hugging Face等多种来源灵活导入标准格式的数据;F8,具备高度的可扩展性,可以在网页、Python Notebook、命令行等多种环境中使用。此外,还介绍了很多“提升使用体验”的设计细节,比如避免颜色混合顺序影响视觉效果的“顺序无关透明度”技术、基于密度快速生成聚类标签的算法、以及自动处理空值和无穷值的智能图表等。在实现层面,其关键是利用了Mosaic框架和DuckDB数据库技术,使得大规模数据的复杂查询和过滤能直接在浏览器中通过WebAssembly高效执行,而无需后端服务器支持;可视化渲染则采用了先进的WebGPU技术,保证了流畅的交互体验。 4. 评估 (EVALUATION) 评估部分从两个方面证明了EMBEDDING ATLAS的先进性。第一部分是“竞争性分析”,作者们将EMBEDDING ATLAS的8个核心特性与其它5个主流工具(WizMap, Nomic Atlas, DataMap Plot, Latent Scope, Embedding Projector)进行了逐一对比。结果(如表格1所示)清晰地表明,虽然大多数工具都能处理大规模数据(F1),但很少有工具能像EMBEDDING ATLAS一样,全面支持与元数据的多视图协同分析(F2)、丰富的自动化数据探索功能(F3-F5)、灵活的部署和扩展性(F6, F8)。这凸显了EMBEDDING ATLAS在功能完整性和易用性上的巨大优势。第二部分是“渲染性能”测试,通过实验展示了该工具在渲染不同数量的数据点时的性能表现(即每秒帧数FPS)。结果令人印象深刻:在处理高达400万个点时,依然能保持60fps的流畅度,即使用户处理超过1000万个点,也能维持在25fps,这远超出了许多传统工具的能力范围。这项测试有力地证明了其技术架构在处理海量数据时的卓越性能和可扩展性。

August 13, 2025 · 小茄墩

MOE是一个免费的嵌入模型

ICLR2025 oral 摘要 虽然大语言模型 (LLM) 在生成任务中表现出色,但如果未应用进一步的representation finetuning,其仅解码器架构通常会限制它们作为嵌入模型的潜力。这是否与它们作为通用模型的声明相矛盾?为了回答这个问题,我们仔细研究了混合专家模型 (MoE) LLM。我们的研究表明,MoE LLM 中的专家路由器可以作为开箱即用的嵌入模型,在各种以嵌入为中心的任务中表现出良好的性能,而无需任何微调。此外,我们广泛的分析表明,MoE 路由权重 (RW) 与 LLM 的隐藏状态 (HS) 互补,而隐藏状态是一种广泛使用的嵌入。与 HS 相比,我们发现 RW 对提示词的选择更具鲁棒性,并且侧重于高级语义。受此分析的启发,我们提出了 [MoEE],它结合了 RW 和 HS,与单独使用两者相比,实现了更好的性能。我们对它们的组合和提示策略的探索揭示了一些新的见解,例如,RW 和 HS 相似度的加权和优于它们连接后的相似度。我们的实验在来自大规模文本嵌入基准 (MTEB) 的 6 个嵌入任务和 20 个数据集上进行。结果表明,[MoEE] 在不进行进一步微调的情况下,为基于 LLM 的嵌入带来了显着改进。 介绍 混合专家模型 (MoE) 作为一种多功能的架构,最初在 1990 年代开发,可以通过将任务分配给专门的专家来提高模型泛化能力并降低推理成本。 随着时间的推移,MoE 在自然语言处理和计算机视觉等领域越来越突出,尤其是在大语言模型 (LLM) 的开发中越来越受到关注。 MoE 的一个关键组成部分是动态路由器,它可以智能地将每个输入分配给最相关的专家。 这使得 MoE 能够根据每个输入的独特特征来定制其计算,从而优化效率和准确性。 然而,最近的大多数 LLM 和 MoE LLM 都是建立在仅解码器架构之上的,该架构经过训练用于自回归的下一个 Token 预测。 虽然在生成任务方面表现出色,但它们的最终或中间隐藏状态 (HS) 并非旨在捕获输入 Token 的关键特征并涵盖其所有信息。 相反,HS 可能会偏向于下一个输出 Token 的信息。 尽管提取最后一个 Token 的隐藏状态 (HS) 作为嵌入是一种常见的经验做法,但它甚至可能比专门为嵌入任务训练的较小编码器模型表现得更差。 以分类为例,语义略有不同的输入可能与相同的标签相关联,因此旨在预测标签的最后一个 HS 可能会忽略输入差异。 尽管专门针对表征学习的额外微调可以大大增强 LLM 作为嵌入模型的能力,但考虑到嵌入任务的广泛应用,这提出了预训练的 LLM 是否可以被称为通用人工智能的问题。 ...

February 15, 2025 · 小茄墩