Seed1.5-VL 技术报告
Seed1.5-VL,这是一款视觉语言基础模型,旨在提升通用的多模态理解与推理能力。Seed1.5-VL 模型包含一个 5.32 亿参数的视觉编码器和一个拥有 200 亿活跃参数的混合专家 (MoE) 大语言模型 (LLM)。尽管架构相对紧凑,该模型在一系列公开的视觉语言模型 (VLM) 基准测试及内部评估中均表现出色,在 60 项公开基准测试中的 38 项上达到了业界领先 (state-of-the-art) 水平。此外,在图形用户界面 (GUI) 控制、游戏操作等以智能体为核心的任务上,Seed1.5-VL 的表现也超越了包括 OpenAI CUA 和 Claude 3.7 在内的顶尖多模态系统。该模型不仅擅长视觉和视频理解,还展现出强大的推理能力,在应对视觉谜题等多模态推理挑战时尤为有效。 模型架构 (Architecture) Seed1.5-VL的架构由视觉编码器、MLP适配器和大型语言模型 (LLM) 三个核心组件构成 。其视觉编码器 Seed-ViT 能够原生支持动态图像分辨率,并采用2D旋转位置编码 (2D ROPE) 以灵活适应任意尺寸的图像,这对于处理高分辨率图像、视频及OCR等需要精细细节的任务至关重要 。为了提高计算效率,架构对相邻的 $2\times2$ 特征块应用平均池化,随后通过一个两层MLP处理这些池化后的特征,再输入LLM 。报告强调,采用视觉编码器而非无编码器架构,能有效进行图像压缩,从而用更少的令牌表示高分辨率图像 。对于视频输入,模型采用了动态帧率-分辨率采样策略,并为每帧添加时间戳标记,以增强模型的时间感知能力和处理不同帧率视频的灵活性 。 视觉编码器 (Vision Encoder) 视觉编码器 Seed-ViT 是一个专为原生分辨率特征提取而设计的拥有5.32亿参数的Vision Transformer (ViT) 。它在预处理阶段将输入图像分辨率调整为 $28\times28$ 像素的最近倍数,然后分割成 $14\times14$ 像素的非重叠图像块 。这些图像块序列被投影到嵌入空间并输入Transformer模块,通过注意力掩码确保图像内的注意力机制 。 Seed-ViT 的预训练分为三个阶段:首先是采用2D ROPE的掩码图像建模 (MIM),通过重建教师模型 (EVA02-CLIP-E) 的CLIP特征来增强视觉几何和结构感知能力,即使教师模型使用可学习位置嵌入而学生模型使用2D ROPE,后者依然赋予学生模型强大的原生动态分辨率识别能力 ;其次是原生分辨率对比学习阶段,视觉编码器使用MIM训练的学生模型初始化,文本编码器使用EVA-02-CLIP-E的文本编码器初始化,通过联合优化SigLIP损失和SuperClass损失来对齐图像和文本嵌入 ;最后是全模态预训练阶段,采用MiCo框架构建包含视频帧、音频、视觉字幕和音频字幕的对齐元组,通过对齐这些嵌入使ViT学习统一的全模态表示,显著提升了ViT在图像和视频理解任务上的性能 。 视频编码 (Video Encoding) Seed1.5-VL 通过引入动态帧率-分辨率采样 (Dynamic Frame-Resolution Sampling) 策略来有效编码视频信息,该策略在时间和空间维度上联合优化采样,以平衡语义丰富性和计算效率 。在时间维度上,模型根据内容复杂性和任务需求动态调整帧采样频率,默认为1 FPS,对于需要详细时间信息的任务可增至2 FPS或5 FPS 。为了明确每个帧在视频时间线上的位置,模型在每帧前添加时间戳令牌(如 [1.5 second]),显著增强了模型的时间感知能力和处理可变帧率的能力 。在空间维度上,模型在每个视频最多81920个令牌的预算内动态调整分配给每个选定帧的分辨率,提供六个预定义级别进行分层分配,允许在帧数和分辨率之间进行灵活权衡 。对于超长视频,模型会通过在整个视频中均匀采样来减少总帧数,以确保整个视频都能被表示 。 ...