Posts

Gemini API 支持 TTS

Gemini API 借助其原生的文本转语音 ( TTS ) 功能，可将文本输入转化为单人或多人朗读的音频。用户可以通过自然语言指令来设定交互模式，并调整生成音频的风格、口音、语速和音调。此 TTS 功能有别于通过 Live API 提供的语音生成服务。 Live API 更侧重于交互式、非结构化的音频场景以及多模态的输入输出处理。尽管 Live API 在处理动态对话方面表现优异，但 Gemini API 的 TTS 功能则更适用于那些需要精确复述文本并对音频风格和音效进行精细控制的应用场景，例如播客或有声读物的制作。本指南将演示如何利用文本生成单人朗读和多人对话的音频。 gemini-2.5-pro-preview-tts gemini-2.5-flash-preview-tts 单人文本转语音若要将文本转换为单人朗读的音频，需将响应模式设置为 “audio” ，并传递一个已配置 VoiceConfig 的 SpeechConfig 对象。您需要从预设的输出语音库中选择一个语音名称。以下示例展示了如何将模型输出的音频保存为 wave 文件：多人文本转语音对于多人对话音频，您需要创建一个 MultiSpeakerVoiceConfig 对象，并为每位发言者（最多支持两位）配置相应的 SpeakerVoiceConfig。您需要确保在提示信息中为每位 speaker 定义的名称与配置中的名称一致：音频流除了像单人朗读和多人对话示例中那样将音频保存到 wave 文件，您还可以通过音频流的方式从模型获取输出。音频流会在响应生成过程中逐步返回数据片段，从而带来更流畅的体验。一旦响应开始，音频便会自动播放。通过提示语控制语音风格无论是单人朗读还是多人对话的 TTS ，您都可以使用自然语言提示语来控制音频的风格、音调、口音和语速。例如，在单人朗读的提示语中，您可以这样写：用诡异的耳语朗读： “拇指阵阵刺痛…… 邪恶之物将临近” 在多人对话的提示语中，您需要向模型提供每位发言者的姓名及其对应的文本内容。您还可以针对每位发言者分别给出风格指导：让 Speaker1 的声音听起来疲惫且无聊，让 Speaker2 的声音听起来兴奋且快乐： Speaker1：那么……今天有什么安排？ Speaker2：你绝对猜不到！可以尝试选用与您期望传达的风格或情感相符的语音选项，以进一步强化效果。例如，在上述提示中，选择带有呼吸声的 Enceladus 语音可能会更突显“疲惫”和“无聊”的感觉，而语调欢快的 Puck 语音则能更好地衬托出“兴奋”和“快乐”的情绪。 ...

Claude 4 正式发布！

正式发布新一代 Claude 系列模型：Claude Opus 4 与 Claude Sonnet 4。这两款模型旨在为编程、高级推理及 AI 智能体领域树立全新标杆。 Claude Opus 4 堪称全球顶尖的编程模型，在处理复杂且耗时较长的任务以及智能体工作流方面表现出持续稳定的卓越性能。 Claude Sonnet 4 则是在 Claude Sonnet 3.7 基础上的显著升级，它不仅编程和推理能力更为出色，响应指令也更为精准。除模型本身外，我们同时宣布以下更新：利用工具进行扩展思考（测试版）：两款模型均能在扩展思考过程中调用工具（例如网络搜索），使 Claude 能在推理与工具运用间灵活切换，从而优化输出结果。新增模型功能：两款模型皆可并行使用工具，更精准地遵循指令。此外，在获得开发者授予的本地文件访问权限后，模型将展现大幅提升的记忆能力，能够提取并储存关键信息，确保任务的连贯性，并逐步积累隐性知识。 Claude Code 正式上线：鉴于研究预览版获得了广泛好评，我们进一步拓展了开发者与 Claude 的协作模式。目前， Claude Code 可通过 GitHub Actions 支持后台任务，并已与 VS Code 及 JetBrains 实现原生集成，可直接在用户文件中显示编辑内容，助力无缝结对编程。 API 新增功能：我们在 Anthropic API 上推出了四项新功能，赋能开发者构建更为强大的 AI 智能体。这些功能包括：代码执行工具、 MCP 连接器、 Files API ，以及长达一小时的提示缓存能力。 Claude Opus 4 与 Sonnet 4 均为混合模型，提供两种运行模式：近乎即时的快速响应与用于深度推理的扩展思考模式。 Claude 的 Pro 、 Max 、 Team 及 Enterprise 订阅计划均包含这两款模型及扩展思考功能，同时 Sonnet 4 亦向免费用户开放。这两款模型已登陆 Anthropic API 、 Amazon Bedrock 以及 Google Cloud 的 Vertex AI 平台。其定价策略与前代 Opus 及 Sonnet 模型持平： Opus 4 的输入/输出价格为每百万 tokens $15/$75 ， Sonnet 4 则为 $3/$15 。 ...

大型语言模型“思考”的陷阱：推理如何影响指令遵循

摘要研究者发现，无论是经过专门推理训练还是通过思维链提示的推理增强型大型语言模型（RLLM），在执行许多复杂推理任务时已达到顶尖水平。然而，一个出乎意料且此前被忽视的现象是，明确的思维链推理会显著削弱模型遵循指令的准确性。通过在两个基准（IFEval，包含简单的、规则可验证的约束；ComplexBench，包含复杂的、组合性约束）上评估15个模型，研究一致观察到，当应用思维链提示时，性能会出现下降。大规模案例研究和基于注意力的分析揭示了推理在何处有益（例如，格式化或词汇精度）或有害（例如，忽略简单约束或引入不必要内容）的常见模式。研究者提出了一个名为“约束注意力”的指标，用以量化模型在生成过程中对指令的关注程度，并表明思维链推理常常将注意力从与指令相关的标记上移开。为减轻这些影响，研究引入并评估了四种策略：情境学习、自我反思、自我选择性推理和分类器选择性推理。结果表明，选择性推理策略，特别是分类器选择性推理，可以大幅恢复损失的性能。据研究者所知，这是首次系统性揭示推理引发的指令遵循失败并提供实用缓解策略的研究。 1. 引言研究者提出了一个核心问题：明确的推理是否真的能帮助模型更准确地遵循指令？本文通过实证研究得出了一个令人惊讶的结论：通过思维链进行推理会降低模型遵循指令的能力。为了系统评估大型语言模型的指令遵循情况，引入了IFEval和ComplexBench等基准测试。 3. 实验实验部分详细介绍了评估模型指令遵循能力所使用的数据集、评估指标、参与评估的模型以及思维链提示的应用方式。研究使用了IFEval和ComplexBench两个基准数据集。IFEval包含541个提示，每个提示都与一到三个可验证的约束相关联，这些约束来自25种类型（例如，字数、格式、关键词使用）。ComplexBench是一个手动策划的数据集，旨在评估模型在通过“与”、“链”、“选择”和“嵌套”等操作形成的复杂组合指令上的表现。评估指标主要关注每个指令中满足的约束的比例。研究评估了包括闭源模型（如GPT-40-mini, Claude3.7-Sonnet）和专注于推理的模型（如DeepSeek-R1, Qwen-R1-distilled变体）在内的多种模型。实验结果一致显示，当应用思维链提示时，几乎所有模型在IFEval和ComplexBench上的性能都出现了下降。例如，Llama3-8B-Instruct的准确率从75.2%下降到59.0%，降幅超过16个百分点。 4. 分析 (Analysis) 为了理解推理何时以及为何会降低指令遵循能力，研究者进行了两项分析：一项手动案例研究，检查思维链在何时帮助或损害约束满足；以及一项基于注意力的分析，调查推理如何在生成过程中将模型注意力从约束上移开。在案例研究中，研究者发现推理在满足格式或结构要求以及强制执行覆盖默认倾向的词汇约束方面有所帮助。然而，当多个约束存在时，推理通常会过分关注高级内容规划而忽略简单的机械约束，或者引入多余的或善意的内容，从而无意中违反约束。在基于注意力的分析中，研究者提出了“约束注意力”指标，用于量化模型对指令中约束标记的关注程度。分析表明，明确的推理通常会减少对提示中与约束相关部分的注意力，这种意识的减弱增加了违反指令的风险。 5. 减轻推理引发的指令遵循失败针对推理导致指令遵循性能下降的问题，研究者提出并评估了四种缓解策略：少样本情境学习、自我反思、自我选择性推理和分类器选择性推理。少样本情境学习：通过在每个指令前添加精心挑选的少样本示例来进行，这些示例源自案例研究中发现的代表性失败案例，并经过手动修改以完全满足所有约束。然而，由于令牌长度限制和每个示例的巨大体量，该方法改进效果有限。自我反思：模型首先生成带有思考过程的初始响应，然后在第二次推理中反思其自身的推理和答案。如果模型认为初始响应满意，则保留它作为最终输出；否则，它会修改响应并输出更新后的版本。自我反思在IFEval上产生了显著的改进，但在较弱的模型和包含更具挑战性指令的ComplexBench上效果较差，并且计算成本较高。自我选择性推理：允许模型动态决定是否执行明确的推理。模型根据指令自行评估是否需要思维链推理。此方法在IFEval上取得了适度的收益，在ComplexBench上表现更强。分析发现，模型倾向于高召回率（正确识别大多数推理有益的情况），但精确率较低，即使在不必要时也经常应用推理。分类器选择性推理：使用外部二进制分类器来确定是否应应用思维链推理。研究者为每个目标模型训练一个单独的分类器，以预测使用思维链是否会导致指令遵循性能的提高。该方法被证明非常有效，几乎在所有模型的两个基准测试中都提高了性能。然而，其主要缺点是需要针对每个模型进行特定的训练。研究者基于这些发现提出了一个决策流程：首先，通过简单启发式或训练好的分类器估计指令的复杂性。对于较简单的任务，推荐自我反思或分类器选择性推理；对于更复杂或组合性的任务，自我选择性推理或分类器选择性推理更有效。总体而言，分类器选择性推理在两个基准测试中始终提供最佳的整体性能，尽管需要针对模型进行特定训练。 6. 结论研究确定并系统地探讨了一个出乎意料的现象：通过思维链提示进行的明确推理会对大型语言模型的指令遵循能力产生负面影响。通过在IFEval和ComplexBench两个综合基准上的广泛评估，研究证明了当模型采用明确推理时，性能会持续下降。详细的分析，包括手动案例研究和基于注意力的检查，揭示了推理如何分散模型对与约束相关的标记的注意力，从而导致指令被忽略或违反。提出的四种缓解策略，特别是分类器选择性推理，可以大幅恢复损失的性能。研究者希望这些发现能激发对推理权衡的进一步研究，并有助于构建更具选择性和有效性的推理模型。

大语言扩散模型

摘要该论文挑战了自回归模型 (ARM) 作为大型语言模型 (LLM) 基石的普遍看法，引入了一种从头开始训练的扩散模型 LLaDA 。LLaDA 通过前向数据掩码过程和由标准 Transformer 参数化的反向过程（用于预测被掩码的词元）来建模数据分布。通过优化似然边界，它为概率推断提供了一种有原则的生成方法。论文表明 LLaDA 具有强大的可扩展性，在上下文学习方面 LLaDA 8B 能与 LLaMA3 8B 等强LLM相媲美，并在监督微调 (SFT) 后展现出令人印象深刻的指令遵循能力，例如在多轮对话中。此外，LLaDA 解决了“逆转诅咒”问题，在逆转诗歌补全任务中超越了 GPT-4o 。这些发现确立了扩散模型作为 ARM 的一种可行且有前景的替代方案。引言引言首先指出大型语言模型 (LLM) 完全属于生成模型的范畴，其目标是通过优化模型分布 $p_θ(⋅)$ 来捕捉真实但未知的数据分布 $p_{data}(⋅)$，通常通过最大化对数似然或最小化KL散度实现当前主流方法依赖自回归模型 (ARM)，即下一词元预测范式自回归范式是否是实现 LLM 智能的唯一路径？他们认为，LLM 的基本特性（如可扩展性、指令遵循、上下文学习）源于通用的生成模型原理（公式1），而非自回归结构本身。ARM 自身存在固有限制，如序列化生成计算成本高，以及在逆向推理任务中效果不佳。受此启发，论文引入 LLaDA（Large Language Diffusion with mAsking），一种基于掩码扩散模型 (MDM) 的方法，通过离散随机掩码过程及其逆过程来构建模型，旨在探索超越 ARM 的生成模型路径。LLaDA 的贡献主要体现在：证明了扩散模型的可扩展性，展示了其强大的上下文学习能力、指令遵循能力以及解决逆转推理问题的潜力。方法本章详细介绍了 LLaDA 的概率公式、预训练、监督微调 (SFT) 和推理过程。其核心思想是通过一个前向的掩码过程和一个反向的去噪（预测掩码）过程来定义模型分布 $p_θ(x_0)$ 。在概率公式部分，LLaDA 的核心是一个掩码预测器 $p_θ(⋅∣x_t)$，它接收部分被掩码的序列 $x_t$ 作为输入，并同时预测所有被掩码的词元 (M) 。训练目标是优化: ...

AI Agent 与 Agentic AI：概念、应用与挑战的深度剖析

《AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges》这篇综述论文旨在严格区分人工智能代理（AI Agents）与智能体人工智能（Agentic AI），通过提供结构化的概念分类、应用图谱和挑战分析，阐明两者在设计理念和功能上的差异。研究的核心目标是为开发稳健、可扩展且可解释的人工智能驱动系统提供明确的路线图。 AI Agent的基础理解 AI Agent被定义为在特定数字环境中为实现目标导向的任务执行而设计的自主软件实体。它们能够感知结构化或非结构化输入，基于上下文信息进行推理，并启动行动以实现特定目标，通常作为人类用户或子系统的代理。 AI Agent的核心特征包括：自主性（部署后以最少的人工干预独立行动的能力）；任务特定性（为狭窄范围的任务进行优化，如调度、查询或过滤）；以及反应性与适应性（响应环境变化并利用反馈循环和基本学习启发式方法的能力）。大型语言模型（LLM）和大型图像模型（LIM）作为核心推理和感知引擎，极大地加速了AI Agent的基础性进展。生成式AI被定位为智能体智能的前身，它能生成新内容但缺乏自主性和目标追求；而AI Agent则通过集成外部工具、提示工程和增强的推理机制来推进这些能力。语言模型作为AI Agent发展的引擎将LLM集成为核心推理引擎是推动从反应式生成模型向自主、目标导向的AI Agent转变的关键驱动力。这些最初为自然语言处理任务训练的模型，日益被嵌入到需要自适应规划、实时决策和环境感知行为的框架中。为了克服仅生成式系统的局限性（如幻觉、静态知识），研究人员提出了工具增强的LLM代理，这些系统将外部工具、API和计算平台集成到代理的推理流程中，从而实现实时信息访问、代码执行和与动态数据环境的交互。例如，ReAct框架通过结合推理（思维链提示）和行动（工具使用），使LLM在内部认知和外部环境交互之间交替进行，展现了这种增强功能。从AI Agent基础看Agentic AI的出现 (The Emergence of Agentic AI from AI Agent Foundations) 尽管AI Agent在通过工具增强推理自动化狭窄任务方面取得了显著进展，但其在复杂、多步骤或协作场景中的可扩展性限制催生了更高级的范式：Agentic AI 。 Agentic AI通过允许多个智能实体通过结构化通信、共享内存和动态角色分配来协同追求目标，从而扩展了传统代理的能力。其核心概念飞跃在于从执行孤立任务的单个代理转变为由多个专业代理协作以实现复杂、高级目标的协调系统。这种转变的关键驱动因素包括目标分解、多步骤规划、跨智能体通信以及反思性推理和记忆系统。一个形象的例子是智能家居系统：一个AI Agent可能是一个单独控制温度的智能恒温器，而一个Agentic AI系统则是一个由天气预报、日程安排、能源优化等多个专业代理协同工作的完整生态系统，共同实现舒适、安全和节能的总体目标。论文通过多个表格详细对比了生成式AI、AI Agent以及Agentic AI在核心功能、架构组成、操作机制、范围与复杂性、交互与自主性等多个维度的关键差异。架构演进：从AI Agent到Agentic AI系统 Agentic AI显著扩展了AI Agent的基础架构（感知、推理、行动），通过集成专业化代理、高级推理与规划、持久性内存和编排等高级组件来实现更复杂、分布式和适应性的行为。基础AI Agent通常包含感知模块（处理输入信号）、知识表示与推理模块（应用逻辑）、行动选择与执行模块（转化决策为行动）以及基本的学习与适应机制。Agentic AI系统则在此基础上增强，例如采用专业代理的集合（每个代理负责特定功能，如MetaGPT中的角色扮演），嵌入递归推理能力（如ReAct, CoT）以进行动态规划和适应，整合持久性内存架构（如情景记忆、语义记忆、向量记忆）以跨任务周期或会话保持知识，并引入编排层或元代理来协调子代理的生命周期、管理依赖关系和解决冲突（如ChatDev中的虚拟CEO元代理）。 ...

斯坦福CS336：大模型从0到1｜25年最新最好的大模型入门课

官方网站：https://cs336.stanford.edu/ 去年该课程没有放出视频，今年官方放出了视频。课程内容均结合今年的大模型发展做了更新。在这个许多人通过高级API与大语言模型交互的时代，本课程旨在让研究者和开发者重新连接到底层技术。我们坚信，要真正理解语言模型，你必须亲手构建它。每次课程内容： 1. 4月1日周二概述与分词本节课深入探讨第一个技术组成部分：Tokenization。中英字幕版本：斯坦福CS336第一课：Tokenization详解 - 小红书 2. 4月3日周四 PyTorch与资源核算这堂课主要讲解了如何从头开始构建语言模型，特别是关注 PyTorch 中的基本构件以及效率（内存和计算资源的使用）课程目标与重点：核心是实际构建模型，理解 PyTorch 的基本元素（张量、模型、优化器、训练循环）。高度关注效率，包括内存占用和计算资源（FLOPs）的估算与优化。侧重于 PyTorch 的机制 (mechanics) 和资源核算的心态 (mindset)。中英字幕版本：斯坦福CS336第二课：pytorch手把手搭建LLM - 小红书 3. 4月8日周二架构与超参数关于 LLM 架构和训练，那些你想知道的一切 1）Transformer 架构回顾与演进趋势 2）核心架构变体：归一化、激活函数与层结构 3）位置编码的收敛：RoPE 的主导 4）超参数选择的经验法则与共识 5）训练稳定性技巧：应对 Softmax 的挑战 6）注意力头部的变体：推理优化与长上下文处理中英字幕版本：斯坦福CS336第三课：详解LLM基础架构 - 小红书 4. 4月10日周四混合专家模型混合专家模型（Mixture of Experts, MoE）去年，这只是一个有趣的额外讲座。但今年，由于很多人都在研究MoE，这节课变得更加重要。所以老师加入了很多最近的进展。最后，尝试剖析DeepSeek V3，理解构成这样一个最先进的开源系统（至少在架构方面）的各种组件。 MoE架构与非MoE架构在大部分组件上是相似的，主要区别在于如何处理前馈神经网络（FFN）层。在一个标准的Transformer模型中，FFN通常是一个单独的、密集的模块。而在MoE模型中，这个单独的FFN会被替换为多个（可能是复制或分割而来）较小的FFN副本，这些副本被称为“专家”。同时，会引入一个“路由器”（router）或“选择器”（selector）层。在每次前向传播或推理过程中，路由器会根据输入选择激活一小部分（例如，一个或几个）专家进行计算。这样做最大的好处是，如果每个专家的大小与原始密集模型的FFN相同，并且每次只激活一个专家，那么模型的总参数量可以显著增加，而计算量（flops）却保持不变。这对于那些相信更多参数能帮助模型记忆更多世界知识的观点来说，是一个极具吸引力的架构。大量研究表明，在相同的训练计算量（training flops）下，混合专家模型能取得比密集模型更优的性能。尽管MoE在flops效率上表现出色，但其并非没有代价。一个主要的挑战在于系统实现的复杂性。有效地路由数据到成百上千个专家，并保证计算效率，需要复杂的基础设施支持。 ...

Qwen3 技术报告

Qwen3 系列大型语言模型通过整合稠密与混合专家 (MoE) 架构，实现了从 0.6 亿到 235 亿参数规模的覆盖，其核心创新在于将用于复杂多步推理的“思考模式”与用于快速上下文驱动响应的“非思考模式”统一到单一框架中。这种设计不仅避免了在聊天优化模型和专用推理模型之间切换的麻烦，还允许根据用户查询或聊天模板动态调整模式。同时，Qwen3 引入了“思考预算”机制，用户可以根据任务复杂性自适应分配推理时的计算资源，从而平衡延迟与性能。此外，通过利用旗舰模型的知识，Qwen3 在显著减少小规模模型构建计算资源的同时，确保了其极具竞争力的性能。实验证明，Qwen3 在代码生成、数学推理、智能体任务等多种基准测试中均达到业界领先水平，并显著扩展了多语言支持至 119 种语言和方言，提升了全球范围内的可访问性与跨语言理解生成能力。所有 Qwen3 模型均在 Apache 2.0 许可下公开，以促进社区研究与发展。 2. 模型架构 (Architecture) Qwen3 系列模型包含了从 0.6B 到 32B 参数的 6 个稠密模型，以及 Qwen3-30B-A3B 和 Qwen3-235B-A22B 两款混合专家 (MoE) 模型，其中旗舰模型 Qwen3-235B-A22B 总参数量为 235B，激活参数量为 22B 。稠密模型的架构与 Qwen2.5 相似，采用了分组查询注意力 (GQA)、SwiGLU 激活函数、旋转位置嵌入 (RoPE) 和带有预归一化的 RMSNorm 。为了确保 Qwen3 训练的稳定性，移除了 Qwen2 中使用的 QKV 偏置，并在注意力机制中引入了 QK-Norm 。对于 MoE 模型，其基础架构与稠密模型一致，并借鉴了 Qwen2.5-MoE 的细粒度专家分割方法，设有 128 个总专家，每个词元激活 8 个专家，但与 Qwen2.5-MoE 不同的是，Qwen3-MoE 设计中不包含共享专家。此外，还采用了全局批量负载均衡损失来促进专家特化，这些架构和训练上的创新显著提升了模型在下游任务中的性能。所有 Qwen3 模型均使用 Qwen 的分词器，该分词器实现了字节级字节对编码 (BBPE)，词汇量大小为 151,669 。 ...

Seed1.5-VL 技术报告

Seed1.5-VL，这是一款视觉语言基础模型，旨在提升通用的多模态理解与推理能力。Seed1.5-VL 模型包含一个 5.32 亿参数的视觉编码器和一个拥有 200 亿活跃参数的混合专家 (MoE) 大语言模型 (LLM)。尽管架构相对紧凑，该模型在一系列公开的视觉语言模型 (VLM) 基准测试及内部评估中均表现出色，在 60 项公开基准测试中的 38 项上达到了业界领先 (state-of-the-art) 水平。此外，在图形用户界面 (GUI) 控制、游戏操作等以智能体为核心的任务上，Seed1.5-VL 的表现也超越了包括 OpenAI CUA 和 Claude 3.7 在内的顶尖多模态系统。该模型不仅擅长视觉和视频理解，还展现出强大的推理能力，在应对视觉谜题等多模态推理挑战时尤为有效。模型架构 (Architecture) Seed1.5-VL的架构由视觉编码器、MLP适配器和大型语言模型 (LLM) 三个核心组件构成。其视觉编码器 Seed-ViT 能够原生支持动态图像分辨率，并采用2D旋转位置编码 (2D ROPE) 以灵活适应任意尺寸的图像，这对于处理高分辨率图像、视频及OCR等需要精细细节的任务至关重要。为了提高计算效率，架构对相邻的 $2\times2$ 特征块应用平均池化，随后通过一个两层MLP处理这些池化后的特征，再输入LLM 。报告强调，采用视觉编码器而非无编码器架构，能有效进行图像压缩，从而用更少的令牌表示高分辨率图像。对于视频输入，模型采用了动态帧率-分辨率采样策略，并为每帧添加时间戳标记，以增强模型的时间感知能力和处理不同帧率视频的灵活性。视觉编码器 (Vision Encoder) 视觉编码器 Seed-ViT 是一个专为原生分辨率特征提取而设计的拥有5.32亿参数的Vision Transformer (ViT) 。它在预处理阶段将输入图像分辨率调整为 $28\times28$ 像素的最近倍数，然后分割成 $14\times14$ 像素的非重叠图像块。这些图像块序列被投影到嵌入空间并输入Transformer模块，通过注意力掩码确保图像内的注意力机制。 Seed-ViT 的预训练分为三个阶段：首先是采用2D ROPE的掩码图像建模 (MIM)，通过重建教师模型 (EVA02-CLIP-E) 的CLIP特征来增强视觉几何和结构感知能力，即使教师模型使用可学习位置嵌入而学生模型使用2D ROPE，后者依然赋予学生模型强大的原生动态分辨率识别能力；其次是原生分辨率对比学习阶段，视觉编码器使用MIM训练的学生模型初始化，文本编码器使用EVA-02-CLIP-E的文本编码器初始化，通过联合优化SigLIP损失和SuperClass损失来对齐图像和文本嵌入；最后是全模态预训练阶段，采用MiCo框架构建包含视频帧、音频、视觉字幕和音频字幕的对齐元组，通过对齐这些嵌入使ViT学习统一的全模态表示，显著提升了ViT在图像和视频理解任务上的性能。视频编码 (Video Encoding) Seed1.5-VL 通过引入动态帧率-分辨率采样 (Dynamic Frame-Resolution Sampling) 策略来有效编码视频信息，该策略在时间和空间维度上联合优化采样，以平衡语义丰富性和计算效率。在时间维度上，模型根据内容复杂性和任务需求动态调整帧采样频率，默认为1 FPS，对于需要详细时间信息的任务可增至2 FPS或5 FPS 。为了明确每个帧在视频时间线上的位置，模型在每帧前添加时间戳令牌（如 [1.5 second]），显著增强了模型的时间感知能力和处理可变帧率的能力。在空间维度上，模型在每个视频最多81920个令牌的预算内动态调整分配给每个选定帧的分辨率，提供六个预定义级别进行分层分配，允许在帧数和分辨率之间进行灵活权衡。对于超长视频，模型会通过在整个视频中均匀采样来减少总帧数，以确保整个视频都能被表示。 ...

ICML25 研究发现RoPE又立大功了！

《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》作者揭示了一个有悖常理的现象：在注意力机制中，极端数值异常地聚集于 Query (Q) 与 Key (K) 的表征区域，而 Value (V) 中则无此现象。值得注意的是，未使用 RoPE（旋转位置编码，如 GPT-2 模型）的模型中并未观察到这一特性。此类极端数值对模型的上下文理解能力至关重要，相较之下，其对于参数化知识的倚重程度则较低。实验显示，若此类数值受到干扰，模型仍能回忆既有事实（例如，回答“中国首都是哪里？”），但在需要依赖上下文的任务中（如 GSM8K 数学推理测试），其表现则会显著下滑。那些特意保留这些极端数值的量化技术（例如 AWQ 和 SmoothQuant）能够维持模型的原有性能；反之，若采用未能保留这些数值的方法（例如 GPTQ），模型的上下文推理能力将遭受重创。当作者刻意让上下文信息与模型的内在知识产生冲突时，发现 LLMs (大语言模型) 的表现与随机猜测无异。然而，有选择地扰动那些“巨大值”反而提升了模型的准确率，这暗示 LLMs (大语言模型) 在默认情况下更倾向于依赖其内部知识，而这些“巨大值”则在引导模型理解上下文方面扮演着关键角色。这种“巨大值”高度集中的现象，其根源直接指向 Rotary Position Encoding (RoPE) 技术。具体来说，RoPE 技术仅选择性地作用于 Query (Q) 和 Key (K) 向量，而将 Value (V) 排除在外，从而导致了极端数值在 Q 和 K 表征中的独特聚集。在涵盖自回归 LLM (大语言模型) 及多模态模型等多种 Transformer 架构中，作者均一致地观察到了这种“巨大值”集中的现象。这进一步印证了作者的假说，即 RoPE 是驱动 QK 表征中结构化“巨大值”出现的根本原因。 ...

Ultra-FineWeb：用于高质量大语言模型训练数据的高效数据过滤与验证

《Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data》清华刘知远团队出品摘要模型驱动的数据过滤仍然面临两大挑战：（1）缺乏有效的数据验证策略，难以对数据质量提供及时的反馈；（2）用于训练分类器的种子数据选择缺乏明确标准，且过度依赖人工经验，引入了一定的主观性。针对第一个挑战，我们提出了一种高效的验证策略，能够以极低的计算成本快速评估数据对 LLM 训练的影响。针对第二个挑战，我们基于高质量种子数据有利于 LLM 训练的假设，结合提出的验证策略，优化了正负样本的选择，并提出了一种高效的数据过滤流程。该流程不仅提升了过滤效率、分类器质量和鲁棒性，还显著降低了实验和推理的成本。此外，为了高效过滤高质量数据，我们采用了一种基于 fastText 的轻量级分类器，并将该过滤流程成功应用于两个广泛使用的预训练语料库，即 FineWeb 和 Chinese FineWeb 数据集，从而创建了更高质量的 Ultra-FineWeb 数据集。Ultra-FineWeb 包含约 $1$ 万亿个英语 Token 和 $1200$ 亿个中文 Token。实验结果表明，在 Ultra-FineWeb 上训练的 LLM 在多个基准测试任务中表现出显著的性能提升，验证了我们的流程在提升数据质量和训练效率方面的有效性。总体工作流所提出的基于高效验证的高质量过滤管道的总体工作流程如图1(c)所示。我们首先构建一个初始候选种子池，并应用我们的高效验证策略来识别能够显著提高训练性能的高质量样本。这些经过验证的样本作为正样本种子，用于训练分类器，而负样本则从原始数据池中随机选择，以创建一个平衡的训练集。在分类器过滤阶段，我们从原始数据池中抽取一个小样本子集，并使用我们的高效验证策略来验证分类器的选择，以评估其有效性。基于验证结果，我们迭代更新高质量种子池，调整正样本和负样本的比例，并微调分类器训练超参数，以优化数据选择策略。只有在高效验证中表现出稳定可靠性能的分类器才会被部署用于全尺度数据选择和后续模型训练，从而在保持高数据质量的同时，显著降低计算成本。高效验证策略验证训练数据的有效性通常需要大量的计算资源。例如，在一个包含1000亿 (B) 个 Token 的数据集上训练一个 10 亿参数的大语言模型 (LLM)，大约需要 1200 个 H100 GPU 小时（相当于 64 个 GPU 连续运行近 19 小时）。当迭代开发高质量的数据分类器时，这种计算负担变得尤其令人望而却步。此外，大规模的训练验证对于较小的数据集来说是不切实际的，因为使用有限的 Token 数量训练的模型无法表现出具有统计意义的性能差异，而训练的不稳定性进一步损害了结果的可靠性。这种限制在我们对 FineWeb 和 FineWeb-edu 的比较分析中很明显。当从头开始使用 80 亿个 Token 进行训练时，FineWeb-edu 在 HellaSwag 上取得了优异的性能，而在 3800 亿个 Token 时，FineWeb 在包括 Winogrande、HellaSwag 和 PIQA 在内的多个基准测试中表现更好，这突出了基于训练规模的评估结果的不一致性[^1]。 ...