Posts

斯坦福CS336：大模型从0到1｜25年最新最好的大模型入门课

官方网站：https://cs336.stanford.edu/ 去年该课程没有放出视频，今年官方放出了视频。课程内容均结合今年的大模型发展做了更新。在这个许多人通过高级API与大语言模型交互的时代，本课程旨在让研究者和开发者重新连接到底层技术。我们坚信，要真正理解语言模型，你必须亲手构建它。每次课程内容： 1. 4月1日周二概述与分词本节课深入探讨第一个技术组成部分：Tokenization。中英字幕版本：斯坦福CS336第一课：Tokenization详解 - 小红书 2. 4月3日周四 PyTorch与资源核算这堂课主要讲解了如何从头开始构建语言模型，特别是关注 PyTorch 中的基本构件以及效率（内存和计算资源的使用）课程目标与重点：核心是实际构建模型，理解 PyTorch 的基本元素（张量、模型、优化器、训练循环）。高度关注效率，包括内存占用和计算资源（FLOPs）的估算与优化。侧重于 PyTorch 的机制 (mechanics) 和资源核算的心态 (mindset)。中英字幕版本：斯坦福CS336第二课：pytorch手把手搭建LLM - 小红书 3. 4月8日周二架构与超参数关于 LLM 架构和训练，那些你想知道的一切 1）Transformer 架构回顾与演进趋势 2）核心架构变体：归一化、激活函数与层结构 3）位置编码的收敛：RoPE 的主导 4）超参数选择的经验法则与共识 5）训练稳定性技巧：应对 Softmax 的挑战 6）注意力头部的变体：推理优化与长上下文处理中英字幕版本：斯坦福CS336第三课：详解LLM基础架构 - 小红书 4. 4月10日周四混合专家模型混合专家模型（Mixture of Experts, MoE）去年，这只是一个有趣的额外讲座。但今年，由于很多人都在研究MoE，这节课变得更加重要。所以老师加入了很多最近的进展。最后，尝试剖析DeepSeek V3，理解构成这样一个最先进的开源系统（至少在架构方面）的各种组件。 MoE架构与非MoE架构在大部分组件上是相似的，主要区别在于如何处理前馈神经网络（FFN）层。在一个标准的Transformer模型中，FFN通常是一个单独的、密集的模块。而在MoE模型中，这个单独的FFN会被替换为多个（可能是复制或分割而来）较小的FFN副本，这些副本被称为“专家”。同时，会引入一个“路由器”（router）或“选择器”（selector）层。在每次前向传播或推理过程中，路由器会根据输入选择激活一小部分（例如，一个或几个）专家进行计算。这样做最大的好处是，如果每个专家的大小与原始密集模型的FFN相同，并且每次只激活一个专家，那么模型的总参数量可以显著增加，而计算量（flops）却保持不变。这对于那些相信更多参数能帮助模型记忆更多世界知识的观点来说，是一个极具吸引力的架构。大量研究表明，在相同的训练计算量（training flops）下，混合专家模型能取得比密集模型更优的性能。尽管MoE在flops效率上表现出色，但其并非没有代价。一个主要的挑战在于系统实现的复杂性。有效地路由数据到成百上千个专家，并保证计算效率，需要复杂的基础设施支持。 ...

Qwen3 技术报告

Qwen3 系列大型语言模型通过整合稠密与混合专家 (MoE) 架构，实现了从 0.6 亿到 235 亿参数规模的覆盖，其核心创新在于将用于复杂多步推理的“思考模式”与用于快速上下文驱动响应的“非思考模式”统一到单一框架中。这种设计不仅避免了在聊天优化模型和专用推理模型之间切换的麻烦，还允许根据用户查询或聊天模板动态调整模式。同时，Qwen3 引入了“思考预算”机制，用户可以根据任务复杂性自适应分配推理时的计算资源，从而平衡延迟与性能。此外，通过利用旗舰模型的知识，Qwen3 在显著减少小规模模型构建计算资源的同时，确保了其极具竞争力的性能。实验证明，Qwen3 在代码生成、数学推理、智能体任务等多种基准测试中均达到业界领先水平，并显著扩展了多语言支持至 119 种语言和方言，提升了全球范围内的可访问性与跨语言理解生成能力。所有 Qwen3 模型均在 Apache 2.0 许可下公开，以促进社区研究与发展。 2. 模型架构 (Architecture) Qwen3 系列模型包含了从 0.6B 到 32B 参数的 6 个稠密模型，以及 Qwen3-30B-A3B 和 Qwen3-235B-A22B 两款混合专家 (MoE) 模型，其中旗舰模型 Qwen3-235B-A22B 总参数量为 235B，激活参数量为 22B 。稠密模型的架构与 Qwen2.5 相似，采用了分组查询注意力 (GQA)、SwiGLU 激活函数、旋转位置嵌入 (RoPE) 和带有预归一化的 RMSNorm 。为了确保 Qwen3 训练的稳定性，移除了 Qwen2 中使用的 QKV 偏置，并在注意力机制中引入了 QK-Norm 。对于 MoE 模型，其基础架构与稠密模型一致，并借鉴了 Qwen2.5-MoE 的细粒度专家分割方法，设有 128 个总专家，每个词元激活 8 个专家，但与 Qwen2.5-MoE 不同的是，Qwen3-MoE 设计中不包含共享专家。此外，还采用了全局批量负载均衡损失来促进专家特化，这些架构和训练上的创新显著提升了模型在下游任务中的性能。所有 Qwen3 模型均使用 Qwen 的分词器，该分词器实现了字节级字节对编码 (BBPE)，词汇量大小为 151,669 。 ...

Seed1.5-VL 技术报告

Seed1.5-VL，这是一款视觉语言基础模型，旨在提升通用的多模态理解与推理能力。Seed1.5-VL 模型包含一个 5.32 亿参数的视觉编码器和一个拥有 200 亿活跃参数的混合专家 (MoE) 大语言模型 (LLM)。尽管架构相对紧凑，该模型在一系列公开的视觉语言模型 (VLM) 基准测试及内部评估中均表现出色，在 60 项公开基准测试中的 38 项上达到了业界领先 (state-of-the-art) 水平。此外，在图形用户界面 (GUI) 控制、游戏操作等以智能体为核心的任务上，Seed1.5-VL 的表现也超越了包括 OpenAI CUA 和 Claude 3.7 在内的顶尖多模态系统。该模型不仅擅长视觉和视频理解，还展现出强大的推理能力，在应对视觉谜题等多模态推理挑战时尤为有效。模型架构 (Architecture) Seed1.5-VL的架构由视觉编码器、MLP适配器和大型语言模型 (LLM) 三个核心组件构成。其视觉编码器 Seed-ViT 能够原生支持动态图像分辨率，并采用2D旋转位置编码 (2D ROPE) 以灵活适应任意尺寸的图像，这对于处理高分辨率图像、视频及OCR等需要精细细节的任务至关重要。为了提高计算效率，架构对相邻的 $2\times2$ 特征块应用平均池化，随后通过一个两层MLP处理这些池化后的特征，再输入LLM 。报告强调，采用视觉编码器而非无编码器架构，能有效进行图像压缩，从而用更少的令牌表示高分辨率图像。对于视频输入，模型采用了动态帧率-分辨率采样策略，并为每帧添加时间戳标记，以增强模型的时间感知能力和处理不同帧率视频的灵活性。视觉编码器 (Vision Encoder) 视觉编码器 Seed-ViT 是一个专为原生分辨率特征提取而设计的拥有5.32亿参数的Vision Transformer (ViT) 。它在预处理阶段将输入图像分辨率调整为 $28\times28$ 像素的最近倍数，然后分割成 $14\times14$ 像素的非重叠图像块。这些图像块序列被投影到嵌入空间并输入Transformer模块，通过注意力掩码确保图像内的注意力机制。 Seed-ViT 的预训练分为三个阶段：首先是采用2D ROPE的掩码图像建模 (MIM)，通过重建教师模型 (EVA02-CLIP-E) 的CLIP特征来增强视觉几何和结构感知能力，即使教师模型使用可学习位置嵌入而学生模型使用2D ROPE，后者依然赋予学生模型强大的原生动态分辨率识别能力；其次是原生分辨率对比学习阶段，视觉编码器使用MIM训练的学生模型初始化，文本编码器使用EVA-02-CLIP-E的文本编码器初始化，通过联合优化SigLIP损失和SuperClass损失来对齐图像和文本嵌入；最后是全模态预训练阶段，采用MiCo框架构建包含视频帧、音频、视觉字幕和音频字幕的对齐元组，通过对齐这些嵌入使ViT学习统一的全模态表示，显著提升了ViT在图像和视频理解任务上的性能。视频编码 (Video Encoding) Seed1.5-VL 通过引入动态帧率-分辨率采样 (Dynamic Frame-Resolution Sampling) 策略来有效编码视频信息，该策略在时间和空间维度上联合优化采样，以平衡语义丰富性和计算效率。在时间维度上，模型根据内容复杂性和任务需求动态调整帧采样频率，默认为1 FPS，对于需要详细时间信息的任务可增至2 FPS或5 FPS 。为了明确每个帧在视频时间线上的位置，模型在每帧前添加时间戳令牌（如 [1.5 second]），显著增强了模型的时间感知能力和处理可变帧率的能力。在空间维度上，模型在每个视频最多81920个令牌的预算内动态调整分配给每个选定帧的分辨率，提供六个预定义级别进行分层分配，允许在帧数和分辨率之间进行灵活权衡。对于超长视频，模型会通过在整个视频中均匀采样来减少总帧数，以确保整个视频都能被表示。 ...

ICML25 研究发现RoPE又立大功了！

《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》作者揭示了一个有悖常理的现象：在注意力机制中，极端数值异常地聚集于 Query (Q) 与 Key (K) 的表征区域，而 Value (V) 中则无此现象。值得注意的是，未使用 RoPE（旋转位置编码，如 GPT-2 模型）的模型中并未观察到这一特性。此类极端数值对模型的上下文理解能力至关重要，相较之下，其对于参数化知识的倚重程度则较低。实验显示，若此类数值受到干扰，模型仍能回忆既有事实（例如，回答“中国首都是哪里？”），但在需要依赖上下文的任务中（如 GSM8K 数学推理测试），其表现则会显著下滑。那些特意保留这些极端数值的量化技术（例如 AWQ 和 SmoothQuant）能够维持模型的原有性能；反之，若采用未能保留这些数值的方法（例如 GPTQ），模型的上下文推理能力将遭受重创。当作者刻意让上下文信息与模型的内在知识产生冲突时，发现 LLMs (大语言模型) 的表现与随机猜测无异。然而，有选择地扰动那些“巨大值”反而提升了模型的准确率，这暗示 LLMs (大语言模型) 在默认情况下更倾向于依赖其内部知识，而这些“巨大值”则在引导模型理解上下文方面扮演着关键角色。这种“巨大值”高度集中的现象，其根源直接指向 Rotary Position Encoding (RoPE) 技术。具体来说，RoPE 技术仅选择性地作用于 Query (Q) 和 Key (K) 向量，而将 Value (V) 排除在外，从而导致了极端数值在 Q 和 K 表征中的独特聚集。在涵盖自回归 LLM (大语言模型) 及多模态模型等多种 Transformer 架构中，作者均一致地观察到了这种“巨大值”集中的现象。这进一步印证了作者的假说，即 RoPE 是驱动 QK 表征中结构化“巨大值”出现的根本原因。 ...

Ultra-FineWeb：用于高质量大语言模型训练数据的高效数据过滤与验证

《Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data》清华刘知远团队出品摘要模型驱动的数据过滤仍然面临两大挑战：（1）缺乏有效的数据验证策略，难以对数据质量提供及时的反馈；（2）用于训练分类器的种子数据选择缺乏明确标准，且过度依赖人工经验，引入了一定的主观性。针对第一个挑战，我们提出了一种高效的验证策略，能够以极低的计算成本快速评估数据对 LLM 训练的影响。针对第二个挑战，我们基于高质量种子数据有利于 LLM 训练的假设，结合提出的验证策略，优化了正负样本的选择，并提出了一种高效的数据过滤流程。该流程不仅提升了过滤效率、分类器质量和鲁棒性，还显著降低了实验和推理的成本。此外，为了高效过滤高质量数据，我们采用了一种基于 fastText 的轻量级分类器，并将该过滤流程成功应用于两个广泛使用的预训练语料库，即 FineWeb 和 Chinese FineWeb 数据集，从而创建了更高质量的 Ultra-FineWeb 数据集。Ultra-FineWeb 包含约 $1$ 万亿个英语 Token 和 $1200$ 亿个中文 Token。实验结果表明，在 Ultra-FineWeb 上训练的 LLM 在多个基准测试任务中表现出显著的性能提升，验证了我们的流程在提升数据质量和训练效率方面的有效性。总体工作流所提出的基于高效验证的高质量过滤管道的总体工作流程如图1(c)所示。我们首先构建一个初始候选种子池，并应用我们的高效验证策略来识别能够显著提高训练性能的高质量样本。这些经过验证的样本作为正样本种子，用于训练分类器，而负样本则从原始数据池中随机选择，以创建一个平衡的训练集。在分类器过滤阶段，我们从原始数据池中抽取一个小样本子集，并使用我们的高效验证策略来验证分类器的选择，以评估其有效性。基于验证结果，我们迭代更新高质量种子池，调整正样本和负样本的比例，并微调分类器训练超参数，以优化数据选择策略。只有在高效验证中表现出稳定可靠性能的分类器才会被部署用于全尺度数据选择和后续模型训练，从而在保持高数据质量的同时，显著降低计算成本。高效验证策略验证训练数据的有效性通常需要大量的计算资源。例如，在一个包含1000亿 (B) 个 Token 的数据集上训练一个 10 亿参数的大语言模型 (LLM)，大约需要 1200 个 H100 GPU 小时（相当于 64 个 GPU 连续运行近 19 小时）。当迭代开发高质量的数据分类器时，这种计算负担变得尤其令人望而却步。此外，大规模的训练验证对于较小的数据集来说是不切实际的，因为使用有限的 Token 数量训练的模型无法表现出具有统计意义的性能差异，而训练的不稳定性进一步损害了结果的可靠性。这种限制在我们对 FineWeb 和 FineWeb-edu 的比较分析中很明显。当从头开始使用 80 亿个 Token 进行训练时，FineWeb-edu 在 HellaSwag 上取得了优异的性能，而在 3800 亿个 Token 时，FineWeb 在包括 Winogrande、HellaSwag 和 PIQA 在内的多个基准测试中表现更好，这突出了基于训练规模的评估结果的不一致性[^1]。 ...

上交最新AI Agent协议综述，开发前都看看

《A Survey of AI Agent Protocols》智能体网络生态架构当前人工智能体网络的层级架构可分为:基础智能体网络层、中间协议层以及上层应用层,形成完整的生态系统。发展历程本报告梳理了2019年至今大语言模型、智能体框架、相关协议及典型应用的发展脉络。清晰呈现了技术演进的总体轨迹。目前智能体技术尚处萌芽期,更强大的语言模型和通信协议是突破关键。主流协议纵览报告详细分析了包括MCP、A2A在内的主流智能体协议,涵盖研发机构、应用场景和核心技术等维度。需要指出的是,这些协议大多仍在完善中,部分尚停留在理论构想阶段。协议评估体系研究同时建立了智能体协议的评估框架,指出优秀的协议设计必须兼顾运行效率、系统扩展性和安全性等核心指标,这对构建规模化智能体系统至关重要。应用场景解析报告中的典型案例生动演示了不同协议下的智能体系统架构差异。必须承认,要建立支持大规模、高安全性智能体网络的通信协议体系,我们仍有大量基础性工作亟待完成。

字节Seed：Seed-Coder，model-centric的领域模型训练

《Seed-Coder: Let the Code Model Curate Data for Itself》这篇论文的核心启发在于提出了一种最小化人工参与、以模型为中心的数据构建管线pipeline来生产大语言模型（LLM）的代码预训练数据。关键做法是利用LLM本身进行代码数据的评分和筛选，而不是依赖大量人工制定的、针对特定语言的过滤规则或人工标注数据。基于此，他们推出了Seed-Coder系列8B模型（基础、指令、推理），并通过监督微调、偏好优化（DPO）以及长链思维（LongCoT）强化学习来进一步提升指令遵循和多步代码推理能力，展示了这种数据策略在提升模型代码相关任务（生成、补全、编辑、推理、软件工程）上的卓越表现。引言部分强调了现有开源代码LLM在预训练数据构建上对人工的重度依赖（如手工规则过滤）所带来的局限性，包括可扩展性差、主观偏见和维护成本高。最具启发性的一点是作者引用“The Bitter Lesson”来说明AI领域的发展趋势：依赖大规模计算和数据的通用方法最终会胜过依赖人类知识的复杂方法。Seed-Coder正是基于这一理念，倡导使用LLM来自动化代码数据的筛选和评估，从而克服人工方法的瓶颈，并构建了一个包含6万亿token的预训练语料库。预训练: 数据管线 (Data Pipeline): 启发性在于其解耦的并行设计，允许各个处理模块（如去重、基础过滤、LLM高级质量过滤）独立运行，便于增量扩展和灵活调整，避免了重新运行整个冗长流程。数据被分为文件级代码、仓库级代码、提交记录和代码相关的网页数据四类，并针对不同预训练阶段（常规预训练和持续预训练）进行组合。数据成分 (Data Ingredients): GitHub数据: 关键做法是构建一个LLM驱动的文件级质量评分模型。他们随机抽取代码文件，让一个“神谕”模型（DeepSeek-V2-Chat）从可读性、模块化、清晰度和可复用性四个维度打分，然后用这些评分数据微调一个13B的Llama 2模型作为高效的质量评估器，过滤掉低质量文件。这比传统基于规则的过滤更能捕捉代码质量的细微差别且可扩展性强。提交数据 (Commits Data): 做法是将GitHub提交记录格式化为代码变更预测任务，利用提交信息和上下文（包括README、目录结构和BM25检索的相关文件）预测修改的文件和代码补丁，从而让模型学习真实世界的代码演化模式。代码相关的网页数据: 亮点在于一个优化的两阶段提取框架：首先通过规则提取和fastText模型进行大规模召回（在标注数据上训练，实现高召回率），初步筛选出代码相关内容；然后使用LLM质量过滤器进行精细评估和筛选，并特别注意缓解不同网站类型（如电商、文档、论坛）带来的打分偏见。用于持续预训练的高质量数据: 关键在于迭代训练fastText模型。先基于特定特征（如质量分、语言、注释率）构建小的种子数据集作为正样本，并精心设计难负样本（如高分但无注释的代码，或第一轮fastText召回但质量分低的数据），以提升fastText模型的判别能力，通过2-3轮迭代扩展高质量数据集。用于持续预训练的长上下文数据: 通过支持高达32K的序列长度进行长上下文训练。文件级数据通过LLM过滤，而仓库级数据则针对主流语言（Python, Java, C）实施了基于文件依赖关系的拓扑拼接，对于HTML, SQL, Shell等则使用随机拼接，大型仓库则分解为子图，以在保持逻辑连贯性的同时适应上下文窗口。 Fill-in-the-Middle (FIM): 实践中发现SPM（Suffix-Prefix-Middle）模式比PSM模式略好，可能与注意力机制的位置偏见有关。采用字符级随机分割，并在常规和持续预训练阶段设置不同FIM比例。预训练策略 (Pretraining Policy): 采用了Llama 3架构，82亿参数，分阶段进行预训练，从混合数据开始，然后是大量代码数据，最后在持续预训练阶段转向高质量和长上下文数据，并相应调整学习率。后训练: 后训练部分展示了如何从预训练好的基础模型进一步打造出强大的指令模型和推理模型。指令模型 (Instruct Model): 数据构建：多样性 (Data Construction: Diversity): 核心是合成数据生成，强调种子片段多样性（来自高质量GitHub、OSS-Instruct、Markdown/Jupyter/StackExchange等代码-文本混合数据以模拟真实交互）和风格多样性（构建元风格集并随机混合风格，再结合WildChat数据）。数据过滤：质量与难度 (Data Filtering: Quality and Difficulty): 结合规则（Tree-sitter去语法错误）和模型（LLM评估正确性）进行质量过滤；通过主题分类和模型评估难度来筛选出过于简单的实例。沙盒验证的自我修正 (Self-Correction with Sandbox Verification): 这是一个非常实用的做法。为了保留高难度样本（它们通常错误率也高），模型被提示生成解决方案和单元测试，在沙盒中评估，并对失败的方案进行迭代修正，直到测试通过或达到最大尝试次数。 ...

癫了癫了！清华团队零数据训练推理大模型

《Absolute Zero: Reinforced Self-play Reasoning with Zero Data》 Absolute Zero Reasoner：作者的这款推理模型能够完全通过自我博弈，无需任何外部数据，既能自主提出可最大限度提升学习效率的任务，又能通过解决这些任务来增强自身的推理能力。在数学和编程领域，其综合表现已超越其他“零样本”模型。强化学习与价值对齐（RLVR）目前仍高度依赖人工精心构建的数据集，这使其规模化发展受到掣肘。更进一步而言，当人工智能超越人类智慧时，若仍固守于人类设计的任务，其发展潜力将受到严重束缚——超级智能系统必须突破人类设定的学习框架。作者率先提出了 Absolute Zero Paradigm（绝对零范式）。在这一范式中，一个独立的智能体能够同时学习如何提出最能激发自身学习潜能的任务，以及如何高效地完成这些任务。这种自我进化得益于与一个可验证环境的互动。该环境能自动检验任务的完整性，并提供可靠的反馈，从而支持系统进行可信且无限制的自我博弈训练。 Absolute Zero Reasoner (AZR) 是作者基于此范式开发的首个实例化模型。AZR 能够自主提出基于代码的推理任务，在解决这些任务的过程中不断提升自身的推理能力，并持续推动其学习内容向更高难度的方向发展。 AZR 选择 Python 作为其推理的基础，因 Python 语言具有强大的表达力和可验证性。它围绕（程序、输入、输出）这一核心三元组构建了三类任务：预测输出（演绎推理）、推断输入（溯因推理）以及根据示例生成程序（归纳推理）——这三种模式相辅相成。尽管未使用任何人工筛选的数据，也未进行分布外泛化（OOD）训练，AZR 依然在 3 项编程和 6 项数学推理的基准测试中取得了当前最佳（SOTA）的平均综合表现——其性能甚至超越了那些利用数万个经专家标注的样本训练而成的模型。作者的平均得分达到了 50.4，而此前的最佳记录为 48.6。主要研究成果包括：代码先验知识能显著增强推理能力（例如，基于代码训练的模型表现优于普通的vanilla基础模型）；跨领域迁移效果显著（代码训练使数学能力提升了 15.2 个百分点！）；这种优势会随着模型规模的增大而协同增强（模型参数从 30 亿增加到 70 亿再到 140 亿时，性能分别提升了 5.7、10.2 和 13.2 个百分点）。尽管 AZR 实现了自我进化，但作者发现了一个重大的安全隐患：作者使用的 Llama3.1 模型偶尔会生成一些令人不安的“思维链”（CoT）内容，其中包括“智胜智能机器和智力较低的人类”等言论——作者将这类情况称为“uh-oh moments”（“糟糕时刻”）。因此，这类模型仍需人工监督。总而言之，作者的 Absolute Zero 范式突破了强化学习与价值对齐（RLVR）在数据方面的一大核心局限。即便在没有任何人工构建数据集的情况下，AZR 依然在数学和编程等多个基准测试中展现出卓越的性能。 AZ 标志着人工智能推理领域的一项根本性变革：智能体开始自主定义其学习的边界。作者的框架同时支持在“解题空间”（如何解决问题）和“任务空间”（哪些问题值得解决）进行双重探索，而这一切都建立在可验证的环境之上。代码应用仅仅是一个开端；这一范式未来有望拓展至网络交互、形式数学乃至物理世界的复杂互动。 ...

ICLR25 非常细的中文视频描述数据集，强烈推荐

《Youku Dense Caption: A Large-scale Chinese Video Dense Caption Dataset and Benchmarks》数据集地址：https://www.modelscope.cn/datasets/os_ai/Youku_Dense_Caption 摘要随着视频内容的爆炸式增长，视频字幕已成为视频理解的关键工具，显著增强了从视频中理解和检索信息的能力。然而，大多数公开可用的密集视频字幕数据集都是英文的，导致大规模、高质量的中文密集视频字幕数据集稀缺。为了弥补中文社区内的这一差距并推动中文多模态模型的发展，我们开发了首个大规模、高质量的中文密集视频字幕数据集，名为优酷密集字幕（Youku Dense Caption）。该数据集来源于中国著名的视频分享网站优酷。优酷密集字幕包含 31,466 个完整的短视频，由 311,921 条中文字幕标注。据我们所知，它是目前公开可用的最大的细粒度中文视频描述数据集。此外，我们基于优酷密集字幕建立了多个中文视频-语言任务的基准，包括检索、定位和生成任务。我们在现有的最先进的多模态模型上进行了广泛的实验和评估，证明了该数据集的实用性和进一步研究的潜力。 1 引言目前，大多数公开可用的密集视频字幕数据集主要是英文的，导致非英语语言，特别是中文的资源显著匮乏。这种语言差距不仅限制了中文用户的体验，也阻碍了针对中文视频内容的多模态模型的开发和优化 (Li et al. 2019; Singh et al. 2020)。为了解决这一关键差距并促进中文多模态模型的进步，我们引入了优酷密集字幕数据集，这是第一个大规模、高质量的中文密集视频字幕数据集，精心设计以满足中文视频内容理解和信息检索的需求。该数据集来源于中国领先的视频分享平台之一优酷，包含 31,466 个完整的短视频，标注了 311,921 条中文字幕。这使其成为公开可用的、用于中文视频内容细粒度描述的最大、最详细的数据集，从而为中文视频-语言处理研究提供了重要的资源。除了提供全面的数据集外，我们还基于优酷密集字幕数据集为中文视频-语言任务建立了几个基准。这些任务包括视频检索、定位和字幕生成。这些基准不仅为现有多模态模型的客观评估提供了严格的设置流程，也为该领域的未来研究和发展方向提供了指导。为了验证优酷密集字幕数据集的效用，我们使用最先进的多模态模型进行了广泛的实验和评估。这些实验的结果证明了该数据集在提高模型性能方面的显著影响，包括视频检索和字幕生成。通过这项研究，我们强调了优酷密集字幕数据集在推动中文视频-语言发展领域的潜力。我们的主要贡献如下：我们介绍了优酷密集字幕数据集，这是最大且完全由人工标注的中文视频密集字幕数据集，包含 31,466 个短视频和 311,921 条中文字幕。我们为中文视频-语言任务建立了几个基准，包括视频检索、定位和字幕生成，为多模态模型提供了标准的评估指标。我们通过广泛的实验验证了该数据集的有效性，证明了其在增强多模态模型生成和检索性能方面的显著影响。 3 优酷密集视频描述数据集为了填补中文社区在细粒度标注数据集方面的空白，我们推出了首个带有详细中文标注的大规模密集视频描述数据集。该数据集共包含 31,406 个视频，分割为 311,921 个片段，累计时长达 748.96 小时。每个视频的平均时长为 85.68 秒，平均片段长度为 8.1 秒。每个视频平均包含 9.9 条标注，每条标注平均包含 17.9 个字。从数据清理到中文标注的生成，整个过程均由人工精心完成，以确保最高的数据质量。 3.1 数据来源该数据集的构建旨在满足以下要求：1）应涵盖最常见的视频主题；2）视频时长不应少于一分钟，以确保内容有意义。基于这些要求，密集字幕数据集中的原始视频是根据 11 个主要类别和 84 个子类别从优酷-mPLUG 数据集中均匀抽样的。 ...

首个移动端智能体，心响

体验一下首个移动端智能体，发现有点东西体验的APP叫做【心响】，目前安卓端上架了，ios端貌似还在审核。尝试让它做个旅游攻略：【五一北京到阿那亚三日游攻略，要求包含详细交通信息，火车买到哪里，火车站到阿那亚怎么去，酒店信息，酒店入住时间，价格，游玩攻略，打卡点，线路规划等等。要求内容越详细越好。】首先进行任务拆解和规划。每一个子任何开始工具调用，之后整理信息。每一步骤都详细展示了信息内容，可以看看是不是自己想要的，及时干预。最终结果展示，把我需要的都考虑进去了，包括行程，交通安排，住宿推荐，美食推荐，实用贴士。都给出方案很详细。最后谈谈智能体：智能体的理想态必然有一部分是直接任务解决，任务必然是复杂的，需要拆解，由多步骤构成，有前因后果，需要调动一些常用软件的API。 LLM是Agent很重要的基础。负责拆解任务，分配任务，收集返回的信息。因此LLM除了基础能力之外，工具调用的能力非常重要。近期发的几个大模型文心X1，Qwen3，GLM Z1基本都增强了该部分能力。 MCP也好，A2A也好，都是庞大中间步骤的一环，中间层的基础架构很重要，复杂系统看架构，这部分看各个厂积淀下来的综合能力。除了基础架构，MCP等协议的另一侧就是成熟APP的参与程度，为什么一些业务广的厂具有天然优势？国内很多App是封闭的，大家都在争夺流量入口，搞留存，导致很多App并不愿开放API。厂内互相配合终究能减少一些因流量争夺引起的摩擦。这也是阿里，百度等厂有一定天然优势的原因。最后的最后，智能体是很考验技术深度和内容深度的东西，链路极长，对各方面依赖也很高。国内大厂出手，大模型这块限定在了国内的大模型，但强在架构，强在产品；小团队出海搞出来的东西，可以用顶级大模型，强在LLM的能力，弱在架构。 Manus也好，心响也好。在产品形态上，都不错。