ICLR25 非常细的中文视频描述数据集,强烈推荐
《Youku Dense Caption: A Large-scale Chinese Video Dense Caption Dataset and Benchmarks》 数据集地址:https://www.modelscope.cn/datasets/os_ai/Youku_Dense_Caption 摘要 随着视频内容的爆炸式增长,视频字幕已成为视频理解的关键工具,显著增强了从视频中理解和检索信息的能力。然而,大多数公开可用的密集视频字幕数据集都是英文的,导致大规模、高质量的中文密集视频字幕数据集稀缺。为了弥补中文社区内的这一差距并推动中文多模态模型的发展,我们开发了首个大规模、高质量的中文密集视频字幕数据集,名为优酷密集字幕(Youku Dense Caption)。该数据集来源于中国著名的视频分享网站优酷。优酷密集字幕包含 31,466 个完整的短视频,由 311,921 条中文字幕标注。据我们所知,它是目前公开可用的最大的细粒度中文视频描述数据集。此外,我们基于优酷密集字幕建立了多个中文视频-语言任务的基准,包括检索、定位和生成任务。我们在现有的最先进的多模态模型上进行了广泛的实验和评估,证明了该数据集的实用性和进一步研究的潜力。 1 引言 目前,大多数公开可用的密集视频字幕数据集主要是英文的,导致非英语语言,特别是中文的资源显著匮乏。这种语言差距不仅限制了中文用户的体验,也阻碍了针对中文视频内容的多模态模型的开发和优化 (Li et al. 2019; Singh et al. 2020)。 为了解决这一关键差距并促进中文多模态模型的进步,我们引入了优酷密集字幕数据集,这是第一个大规模、高质量的中文密集视频字幕数据集,精心设计以满足中文视频内容理解和信息检索的需求。该数据集来源于中国领先的视频分享平台之一优酷,包含 31,466 个完整的短视频,标注了 311,921 条中文字幕。这使其成为公开可用的、用于中文视频内容细粒度描述的最大、最详细的数据集,从而为中文视频-语言处理研究提供了重要的资源。 除了提供全面的数据集外,我们还基于优酷密集字幕数据集为中文视频-语言任务建立了几个基准。这些任务包括视频检索、定位和字幕生成。这些基准不仅为现有多模态模型的客观评估提供了严格的设置流程,也为该领域的未来研究和发展方向提供了指导。 为了验证优酷密集字幕数据集的效用,我们使用最先进的多模态模型进行了广泛的实验和评估。这些实验的结果证明了该数据集在提高模型性能方面的显著影响,包括视频检索和字幕生成。通过这项研究,我们强调了优酷密集字幕数据集在推动中文视频-语言发展领域的潜力。 我们的主要贡献如下: 我们介绍了优酷密集字幕数据集,这是最大且完全由人工标注的中文视频密集字幕数据集,包含 31,466 个短视频和 311,921 条中文字幕。 我们为中文视频-语言任务建立了几个基准,包括视频检索、定位和字幕生成,为多模态模型提供了标准的评估指标。 我们通过广泛的实验验证了该数据集的有效性,证明了其在增强多模态模型生成和检索性能方面的显著影响。 3 优酷密集视频描述数据集 为了填补中文社区在细粒度标注数据集方面的空白,我们推出了首个带有详细中文标注的大规模密集视频描述数据集。该数据集共包含 31,406 个视频,分割为 311,921 个片段,累计时长达 748.96 小时。每个视频的平均时长为 85.68 秒,平均片段长度为 8.1 秒。每个视频平均包含 9.9 条标注,每条标注平均包含 17.9 个字。从数据清理到中文标注的生成,整个过程均由人工精心完成,以确保最高的数据质量。 3.1 数据来源 该数据集的构建旨在满足以下要求:1)应涵盖最常见的视频主题;2)视频时长不应少于一分钟,以确保内容有意义。基于这些要求,密集字幕数据集中的原始视频是根据 11 个主要类别和 84 个子类别从优酷-mPLUG 数据集中均匀抽样的。 ...