字节Seed:PPO 在长思维链(Long-CoT)中崩溃的背后是什么?价值优化掌握着秘密

近端策略优化 $$ \mathcal{L}^{CLIP}(\theta)=\hat{\mathbb{E}}_t\left[\min\left(r_t(\theta)\hat{A}_t,\text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right] $$$$ \hat{A}_t=\sum_{l = 0}^{T-t-1}(\gamma\lambda)^l\delta_{t + l} $$ 其中 $\gamma$ 是折扣因子,$\lambda\in[0, 1]$ 是 GAE 参数,而 $\delta_t=r_t+\gamma V(s_{t + 1})-V(s_t)$ 是时序差分 (TD) 误差。此处,$r_t$ 是时间步 $t$ 的奖励,$V(s)$ 是价值函数。由于在 RLHF 中通常将折扣因子设为 $\gamma = 1.0$,为简化表示,我们在本文后续章节中省略了 $\gamma$。 识别并解决 PPO 在长 CoT 任务中的失败模式 在本节中,我们展示 PPO 在长 CoT 任务中的一个常见失败模式,并从理论和实证角度考察其与预训练及训练中价值偏差的关系。随后,我们提出实用的解决方案来改进 PPO,使其能够避免此类失败。 PPO 在长思维链 (CoT) 任务中的失败模式 在从人类反馈中进行强化学习 (Reinforcement Learning from Human Feedback, RLHF) 的领域应用 PPO 时,有两种常见的做法如下: 采用默认的广义优势估计 (Generalized Advantage Estimation, GAE),通常设置 $\lambda = 0.95$。 使用一个训练充分的奖励模型 (reward model) 来初始化价值模型 (value model)。 第一种做法起源于传统的强化学习文献,在这些文献中,PPO 已经在 Mujoco 和 Atari 等环境中得到了广泛的测试。在这些环境中,奖励 (rewards) 会沿着轨迹 (trajectory) 累积,导致回报 (return) 具有高方差。因此,方差缩减 (variance reduction) 变得十分必要。第二种做法则自然地源于奖励模型和价值模型之间的明显相似性,因为这两种模型都被训练用于预测关于响应 (response) 的标量信息 (scalar information)。然而,我们的实验揭示,将 PPO 轻率地应用于需要长思维链 (CoT) 的任务不可避免地会导致失败,具体如图1所示。 ...

April 9, 2025 · 小茄墩

字节Seed新作:VAPO:使用基于价值的强化学习框架进行长思维链推理

摘要 我们提出VAPO(面向推理模型的基于价值的增强型近端策略优化框架),这是一个专为推理模型设计的新型框架,立足于价值导向范式。在AIME 2024数据集的基准测试中,基于Qwen 32B预训练模型构建的VAPO获得了60.4的最高分。在完全相同的实验条件下进行直接对比时,VAPO的表现超过先前报告的DeepSeek-R1-Zero-Qwen-32B和DAPO模型10分以上。 VAPO的训练过程以稳定性和效率见长。它仅需5,000步即可达到最先进的性能水平。此外,在多次独立运行测试中,未出现任何训练崩溃现象,充分证明了其可靠性。 本研究深入探讨了使用基于价值的强化学习框架进行长思维链(long-CoT)推理。我们识别出影响基于价值方法的三个关键挑战:价值模型偏差、异构序列长度以及奖励信号稀疏性。通过系统化设计,VAPO提供了一个综合解决方案,有效缓解了这些挑战,从而提升了长思维链推理任务的性能表现。 引言 在大语言模型(LLM)的强化学习(RL)训练中,像 GRPO 和 DAPO 这样的无价值方法已展现出显著的有效性。这些方法消除了学习价值模型的计算开销,而是仅根据整个轨迹的最终奖励来计算优势。然后,轨迹级别的优势被直接分配为序列中每个位置的 Token 级别优势。当训练一个可靠的价值模型特别具有挑战性时,无价值方法通过对一个组内多个轨迹的奖励进行平均,为优势计算提供了一个准确且稳定的基线。这种基于组的奖励聚合减轻了对显式价值估计的需求,而显式价值估计在复杂任务中常常存在不稳定性。因此,无价值方法在解决诸如长思维链(CoT)推理等难题方面获得了显著的关注,大量的研究工作都集中在优化其框架上。 尽管不基于价值的方法已取得了显著成功,但我们认为,如果能够克服训练价值模型中的挑战,基于价值的方法则拥有更高的性能上限。首先,价值模型通过精确追踪每个动作对后续回报的影响,能够实现更精确的信用分配,从而促进更细粒度的优化。这对于复杂的推理任务尤为关键,因为在这类任务中,单个步骤的细微错误往往会导致灾难性的失败,而对于在不基于价值的框架下进行优化的模型而言,这仍然是一个挑战。其次,相较于不基于价值的方法中利用蒙特卡洛方法得出的优势估计,价值模型能为每个 Token 提供方差更低的值估计,进而增强训练的稳定性。此外,一个训练良好的价值模型展现出内在的泛化能力,使其能够更有效地利用在线探索过程中遇到的样本。这显著提升了强化学习算法的优化上限。因此,尽管为复杂问题训练价值模型面临着艰巨挑战,但克服这些困难所能带来的潜在收益是巨大的。然而,在长思维链(Long CoT)任务中训练一个完美的价值模型存在显著的挑战。第一,鉴于轨迹漫长以及以自举方式学习价值存在不稳定性,学习一个低偏差的价值模型并非易事。第二,同时处理长响应和短响应也颇具挑战性,因为它们在优化过程中可能对偏差-方差权衡表现出截然不同的偏好。最后但同样重要的是,来自验证者的奖励信号的稀疏性,因长思维链模式而进一步加剧,这内在地要求采用更好的机制来平衡探索与利用。为应对上述挑战并充分释放基于价值的方法在推理任务中的潜力,我们提出了Value Augmented proximal Policy Optimization(VAPO),一个基于价值的强化学习训练框架。VAPO 从 VC-PPO 和 DAPO 等先前的研究工作中汲取灵感,并对其概念进行了进一步扩展。我们将我们的主要贡献总结如下: 我们引入了 VAPO,这是首个在长 COT 任务上显著优于无价值方法的基于价值的强化学习 (RL) 训练框架。VAPO 不仅表现出显著的性能优势,而且还展示了更高的训练效率,简化了学习过程,并突显了其作为该领域新基准的潜力。 我们提出了长度自适应 GAE (Length-adaptive GAE),它根据响应长度自适应地调整 GAE (Generalized Advantage Estimation) 计算中的 $\lambda$ 参数。通过这样做,它有效地满足了与长度差异极大的响应相关的独特偏差-方差权衡需求。因此,它优化了优势估计过程的准确性和稳定性,特别是在数据序列长度变化广泛的场景中。 我们系统地整合了先前工作的技术,例如来自 DAPO 的 Clip-Higher 和 Token 级损失 (Token-level Loss),来自 VC-PPO 的价值预训练 (Value-Pretraining) 和解耦 GAE (Decoupled-GAE),来自 SIL 的自模仿学习 (self-imitation learning),以及来自 GRPO 的组采样 (Group-Sampling)。此外,我们通过消融研究进一步验证了这些技术的必要性。 VAPO 是一个有效的强化学习系统,它整合了这些改进。这些改进平稳地协同作用,产生的整体效果优于各独立部分的总和。我们使用 Qwen2.5-32B 预训练模型进行实验,确保在所有实验中均未引入 SFT 数据,以保持与相关工作(DAPO 和 DeepSeek-R1-Zero-Qwen-32B)的可比性。VAPO 的性能得分相较于原始 PPO 从 5 分提升至 60 分,超越了先前最先进的(SOTA)不依赖价值函数的方法 DAPO 10 分。更重要的是,VAPO 非常稳定 —— 我们在训练期间没有观察到任何崩溃,并且多次运行的结果高度一致。 ...

April 8, 2025 · 小茄墩

DeepSeek-GRM:通用奖励模型实现有效推理时间扩展

摘要 强化学习(RL)已被广泛应用于大规模大语言模型(LLMs)的后训练阶段。最近,通过强化学习激励大语言模型推理能力的实践表明,适当的学习方法可以实现有效的推理时可扩展性。强化学习的一个关键挑战是在可验证问题或人为规则之外的各种领域中为大语言模型获取准确的奖励信号。在这项工作中,我们研究了如何通过增加推理计算来改进通用查询的奖励建模(RM),即**,并进一步研究如何通过适当的学习方法提高性能-计算扩展的有效性。 对于奖励建模方法,我们采用pointwise generative reward modeling(GRM),以便为不同输入类型提供灵活性,并具备推理时扩展的潜力。对于学习方法,我们提出了Self-Principled Critique Tuning(SPCT),通过在线强化学习在 GRM 中培养可扩展的奖励生成行为,以自适应地生成原则并准确地进行批判,从而产生了DeepSeek-GRM模型。此外,为了实现有效的推理时扩展,我们使用并行采样来扩展计算使用量,并引入了一个元奖励模型来指导投票过程以获得更好的扩展性能。实验表明,SPCT 显著提高了 GRM 的质量和可扩展性,在各种奖励建模基准测试中优于现有方法和模型,且没有严重的偏见,并且与训练时扩展相比可以实现更好的性能。DeepSeek-GRM 在某些任务中仍然面临挑战,我们相信这可以通过未来在通用奖励系统方面的努力来解决。这些模型将被发布并开源。 引言 我们能否设计一种旨在为通用奖励模型实现有效推理时间扩展的学习方法? 在这项工作中,我们研究了不同的[奖励模型方法],发现逐点生成式奖励建模(GRM)可以在纯语言表示内统一对单个、成对和多个响应的评分,从而克服了挑战(1)。我们探索发现,某些原则可以在适当的标准内指导生成式奖励模型的奖励生成过程,进而提高奖励质量,这启发了我们:奖励模型的推理时间可扩展性或许可以通过扩展高质量原则和准确批判的生成来实现。 基于这一初步认识,我们提出了一种新颖的[学习方法],自我原则化批判调优(SPCT),旨在培养生成式奖励模型中有效的推理时间可扩展行为。通过利用基于规则的在线强化学习,SPCT使生成式奖励模型能够学习根据输入查询和响应自适应地设定原则和批判,从而在通用领域产生更好的结果奖励(挑战(2))。随后,我们开发了DeepSeek-GRM-27B,该模型基于Gemma-2-27B,并使用SPCT进行了后训练。对于[推理时间扩展],我们通过多次采样来扩展计算资源的使用。通过并行采样,DeepSeek-GRM可以生成不同的原则集合以及相应的批判,然后通过投票决定最终奖励。通过更大规模的采样,DeepSeek-GRM能够基于多样性更高的原则进行更准确的判断,并输出粒度更精细的奖励,这解决了挑战(3)&(4)。此外,除了通过投票方式,我们还训练了一个元奖励模型以获得更好的扩展性能。实验证明,SPCT显著提高了生成式奖励模型的质量和可扩展性,在多个综合性奖励模型基准测试中表现优于现有方法和模型,且没有表现出严重的领域偏差。我们还将DeepSeek-GRM-27B的推理时间扩展性能与参数量高达671B的更大模型进行了比较,发现相较于通过增大模型规模进行训练时间扩展,我们的方法能实现更优的性能。尽管当前方法在效率和特定任务方面仍面临挑战,但我们相信,通过SPCT及后续的努力,具有增强可扩展性和效率的生成式奖励模型可以作为通用奖励系统的多功能接口,推动大语言模型后训练和推理领域的前沿发展。 总的来说,我们的主要贡献如下: 我们提出了一种名为 自洽原则批判调整(SPCT) 的新颖方法,旨在提升通用奖励模型有效的推理时可扩展性,并由此产生了 DeepSeek-GRM 模型。此外,我们还引入了一个元奖励模型(meta RM),以在投票机制之外有效提升 DeepSeek-GRM 的推理时扩展性能。 我们通过实验证明,相较于现有方法及若干强大的公开模型,SPCT 显著提升了通用奖励模型(GRM)的质量和推理时可扩展性。 我们亦将 SPCT 训练方案应用于更大规模的大语言模型(LLM),并发现就训练时间而言,推理时扩展的表现可能优于模型规模扩展。 不同奖励模型(RM)方法的比较 如图2所示,奖励模型(RM)方法主要由奖励生成范式和评分模式决定,这从本质上影响了 RM 的推理时可扩展性和输入灵活性。对于奖励生成范式,我们区分三种主要方法:标量、半标量和生成式。标量方法为给定的查询和响应分配标量值,而半标量方法既生成文本判断(称为“评语”),也生成标量奖励值。生成式方法仅生成作为文本奖励的评语,奖励值可从中提取。对于评分模式,我们区分两种主要方法:逐点式和配对式。逐点式方法为每个响应分配一个独立的分数,而配对式方法则从所有候选响应中选择单个最佳响应。为了扩展推理时的计算使用,我们关注基于采样的方法,这些方法为相同的查询和响应生成多组奖励,然后聚合得到最终奖励。因此,RM 的推理时可扩展性取决于是否能通过多次采样获得不同的奖励,而标量 RM 在大多数情况下会因此失效,因为其奖励生成是不变的;输入灵活性则定义为 RM 是否支持对单个、成对以及多个响应进行评分,其中配对式 RM 几乎无法对单个响应评分,并且通常需要额外技术来处理多个响应。逐点式生成式奖励模型(GRM)的公式为: 其中 $x$ 是查询,$y_i$ 是第 $i$ 个响应,$r_{\theta}$ 是由 $\theta$ 参数化的奖励函数,$\mathcal{R}$ 是奖励,$\boldsymbol{C}$ 是评价,$S_i$ 是 $y_i$ 的个体分数,而 $f_{\mathrm{extract}}(\cdot)$ 从生成结果中提取奖励。通常,奖励是离散的,并且在这项工作中,我们默认分配 $S_i \in \mathbb{N}, 1 \leq S_i \leq 10$。 ...

April 6, 2025 · 小茄墩

Llama 4 家族:原生多模态 AI 创新新纪元的开端

1. 要点 三大模型概览:Llama 4 Scout(小型)、Llama 4 Maverick(中型)、Llama 4 Behemoth(大型),Behemoth还在训练,其余模型都是Behemoth蒸馏而来。 技术参数对比: 性能优势:多模态能力、Maverick在LMArena 1714分,Behemoth 声称击败所有模型 部署效率:单GPU适配 2. 预训练 MoE架构原理:参数激活机制、计算效率提升 多模态融合:早期融合技术、文本与视觉token集成 视觉增强:改进的MetaCLIP视觉编码器 训练创新:MetaP超参数设置、FP8精度训练 数据规模:30万亿Token、200种语言支持 上下文扩展:中期训练阶段、1000万Token长度 3.后训练 多模态挑战:不同输入模态平衡 优化流程:轻量级SFT → 在线RL → 轻量级DPO 数据策略:模型评判器过滤、难度筛选 迭代方法:连续在线强化学习、自适应过滤 效果验证:智能与对话能力平衡 4.模型特性与能力 Maverick特点:大规模专家(128)、跨语言应用、创意写作 Scout创新:iRoPE架构、交错注意力层、无位置嵌入 长上下文技术:推理时温度缩放、旋转位置嵌入 视觉理解:多图像处理(最多48张)、时间相关活动理解 图像定位:精确视觉问答、对象定位能力 5. 2T Behemoth模型 规模与定位:288B活跃参数、2T总参数、教师模型角色 蒸馏技术:共同蒸馏、动态加权损失函数 训练挑战:95%数据裁剪、大规模强化学习 提示词策略:难度递增计划、零优势动态过滤 基础设施创新:异步在线RL框架、灵活GPU分配 效率提升:训练速度10倍提升、资源平衡 以下为原文:包含更多细节 预训练 构建下一代 Llama 模型要求我们在预训练期间采取几种新方法。 我们新的 Llama 4 模型是我们首批使用混合专家(MoE)架构的模型。在 MoE 模型中,单个 Token 仅激活总参数中的一小部分。MoE 架构在训练和推理方面计算效率更高,并且在给定的固定训练 FLOPs 预算下,与密集模型相比,能够提供更高的质量。 例如,Llama 4 Maverick 模型包含 17B (170亿) 活跃参数和 400B (4000亿) 总参数。我们交替使用密集层和混合专家 (MoE) 层以提升推理效率。MoE 层使用了 128 个路由专家和一个共享专家。每个 token 会被发送到共享专家,同时也会发送到 128 个路由专家中的一个。因此,尽管所有参数都存储在内存中,但在运行这些模型进行服务时,只有总参数的一个子集会被激活。这通过降低模型服务成本和延迟来提高推理效率——Llama 4 Maverick 既可以在单台 NVIDIA H100 DGX 主机上运行以便于部署,也可以通过分布式推理实现最高效率。 Llama 4 模型采用原生多模态设计,并结合了早期融合技术,将文本和视觉 token 无缝集成到统一的模型骨干网络中。早期融合是一项重大进步,因为它使我们能够利用大量未标记的文本、图像和视频数据对模型进行联合预训练。我们还改进了 Llama 4 中的视觉编码器。该编码器基于 MetaCLIP,但与一个冻结的 Llama 模型协同进行了单独训练,旨在使编码器能更好地适配大语言模型 (LLM)。 ...

April 6, 2025 · 小茄墩

multi token attention

摘要 Soft attention机制是驱动大语言模型 (LLM) 在给定上下文中定位相关部分的关键机制。然而,单个注意力权重仅由单个查询和键 Token 向量的相似性决定。这种“单 Token 注意力”限制了用于区分相关部分与上下文其余部分的信息量。为了解决这个问题,我们提出了一种新的注意力方法,多 Token 注意力(MTA),它允许大语言模型同时基于多个查询和键向量来调节其注意力权重。这是通过对查询、键和头应用卷积运算来实现的,从而允许附近的查询和键相互影响彼此的注意力权重,以实现更精确的注意力。因此,我们的方法可以使用更丰富、更细致的信息来定位相关上下文,这些信息可以超过单个向量的容量。通过广泛的评估,我们证明了 MTA 在一系列流行的基准测试中实现了增强的性能。值得注意的是,它在标准语言建模任务以及需要在长上下文中搜索信息的任务上优于 Transformer 基线模型,在这些任务中,我们的方法利用更丰富信息的能力被证明特别有益。 多头注意力机制背景 $$ K = H W_k , \quad V = H W_v, \quad Q = H W_q $$$$ \hat{A}={QK^\top}/{\sqrt{d}}, \quad A = \text{Softmax}( \text{Mask}_{-\infty}(\hat{A}) ), \label{eq:attn} $$ 其中 softmax 函数作用于 key 的维度,mask 函数将 $(i,j)$ 位置的值替换为 $-\infty$,当 $i...

April 3, 2025 · 小茄墩

截止2025年4月,好用的语音克隆方案

商业产品 ==Cartesia Sonic 2.0== 天花板,团队实力极强。但中文一般 ==TicVoice 7.0== 出门问问出品。商业级高品质TTS,3秒克隆,MOS评分4.7。其开源Spark-TTS ==CosyVoice 2.0== 阿里巴巴出品。多语言/方言支持,高情绪复刻 已开源 ==ElevenLabs== 老牌产品了,130+语言支持,高真实度 ==Reecho== 中文优化 ==MiniMax== 很稳 ==seasame== 很惊艳 开源 部署玩就是了 ==CosyVoice 2.0== ==GPT-SoVITS v3== ==Step-Audio== ==Spark-TTS== ==MegaTTS 3== ==F5-TTS==

April 2, 2025 · 小茄墩

JetFormer:自回归大模型,原生图像输出的秘诀?

摘要 移除建模约束和统一跨领域的架构一直是训练大型多模态模型取得最新进展的关键驱动因素。然而,大多数这些模型仍然依赖于许多单独训练的组件,例如特定模态的编码器和解码器。在这项工作中,我们进一步简化了图像和文本的联合生成建模。我们提出了一种 autoregressive decoder-only transformer—JetFormer—它被训练来直接最大化原始数据的似然,而不依赖于任何单独预训练的组件,并且能够理解和生成文本和图像。具体来说,我们利用归一化流模型来获得一个软Token图像表示,该表示与自回归多模态Transformer联合训练。归一化流模型在推理期间既充当感知任务的图像编码器,又充当图像生成任务的图像解码器。JetFormer实现了与最近基于VQVAE和VAE的基线模型相媲美的文本到图像生成质量。这些基线模型依赖于预训练的图像自动编码器,这些自动编码器使用包括感知损失在内的复杂损失混合进行训练。与此同时,JetFormer展示了强大的图像理解能力。据我们所知,JetFormer是第一个能够生成高保真图像并产生强大的对数似然边界的模型。 介绍 “痛苦的教训”一直是机器学习和人工智能研究近期进展背后的主要推动力。 它表明,能够有效利用大量计算资源和数据的一般用途方法,胜过领域专家设计的专用技术。 在此背景下,最突出的例子包括:仅使用 Transformer 解码器的模型,这些模型经过训练用于下一个 Token 预测,其性能优于特定任务的 NLP 系统;以及计算机视觉中的 Transformer 编码器,它们实现了比基于 CNN 的模型更好的质量。 这种趋势在当前将大语言模型 (LLM) 扩展到理解和生成多种模态(例如文本和图像)的尝试中也很明显。 文献中一个有效的范例是使用通过 (VQ)VAE 获得的离散 Token 来建模图像 Token。 这些方法的一个局限性在于,从图像到 Token 以及反之的转换是由一个单独的、冻结的、特定于模态且有损的编码器(和解码器)预先执行的。 因此,此图像编码器可能与手头的实际任务无关,从而限制了最终模型的性能。 为了获得一个能够生成多种模态,且不依赖于预训练(具有局限性)组件的通用架构,我们开发了一种新的生成模型:JetFormer。 它可以从头开始训练,并针对原始训练数据的对数似然进行端到端优化。 我们以文本和像素为例展示了这一点。 为此,我们将用于计算软 Token 图像表示的归一化流与仅解码器的 Transformer 以及软 Token 高斯混合损失相结合。 JetFormer 模型背后的关键洞察在于,强大的归一化流(我们称之为 “jet”,因此得名)可用于将图像编码成适合自回归建模的潜在表示。 直观地说,编码为像素的原始图像块具有非常复杂的结构,这使得直接自回归变得困难重重: 迄今为止,还没有令人信服的演示能够成功实现这一点。 同时,该流模型是无损的,并且可以与(多模态)自回归模型一起进行端到端训练。 在推理时,图像解码器可以随时使用,因为我们的流模型具有闭合形式的可逆性。 尽管我们仅优化对数似然,但值得注意的是,仅仅这样做并不能保证生成具有全局连贯性的图像。与绝大多数关于高保真图像生成的工作类似,我们引导模型专注于高层次的信息。为此,我们探索了两种方法。首先,我们引入了一种基于训练期间图像增强的创新技术。其主要思想是在训练期间添加高斯噪声,并在训练过程中逐渐降低噪声。直观地说,这促使模型在早期阶段优先考虑高层次的信息;即使训练期间的噪声curriculum 受到扩散模型的启发,但在技术层面上却截然不同,并且最终的模型在推理时不会执行渐进式图像去噪。 其次,我们探索了两种管理自然图像中冗余信息的方法。JetFormer 能够轻松地从自回归模型中排除冗余维度的子集。作为一种替代方案,我们探索了使用 PCA 来降低图像维度。我们对 ImageNet 类条件图像生成和网络规模的多模态生成进行了实验,从而证明了 JetFormer 的有效性,并且可以使用单个模型扩展到文本到图像生成和视觉语言理解。 总之,我们的贡献是: 我们提出了 JetFormer,一个由 Transformer 和归一化流组成的生成模型,可以从头开始训练,以端到端的方式联合建模文本和原始像素。 我们表明,基于噪声学习curriculum的图像增强可以显著提高此类基于似然性的模型的图像生成质量。 我们证明了我们提出的端到端模型在网络规模数据上训练时,与不太灵活的技术相比具有竞争力,并且可以生成图像和文本。 相关工作 在文献中,使用 CNN 或 Transformer 以自回归的方式生成自然图像作为离散值像素序列已被广泛探索。 虽然在对数似然方面取得了优异的结果,但这些模型的计算成本很高,并且无法很好地扩展到高图像分辨率。 一系列相关的模型是归一化流,即可逆模型,通过最大化对数似然来训练这些模型,以将图像像素映射到简单的先验。 这些模型的可扩展性更好,但获得的似然性低于自回归模型,并且即使对于低分辨率,在经验上也无法生成高保真图像。 ...

March 30, 2025 · 小茄墩

MCP究竟是啥?一次很简单的实践

MCP 结构 首先需要一个支持MCP的客户端,可以是vscode,cursor,claude app等等。 然后在本地部署好各种server,比如百度地图,browser use等等,主要是搞一个server.py,采用FastMCP格式,定义好tools,输入参数,函数内就是具体干啥,可以是一堆python代码直接把事干完了,诸如加减乘除操作然后return,也可以是发送一个请求等待接收结果然后return。 请求外部的话,一般比如百度地图,接收请求,返回内容。所以除了自己电脑上server.py,外部工具也需要一个xxx.py来响应请求。 MCP客户端和server之间,最简单就是一个json来关联,诸如cline_mcp_settings.json。写清楚server名,怎么启动。 所以MCP究竟在干啥呢?简单理解或许就是提供了FastMCP的一套标准格式,然后各个工具内部写个xxx.py处理请求。各个用户在本地配置server.py来发送请求。然后这么一套标准化的东西整完,大模型就可以知道有哪些东西可以调用(通过cline_mcp_settings.json)。 Model server x:server.py 本地需要server.py,然后部署(给大模型看的,都会作为prompt的一部分,让大模型知道有什么函数,怎么用) 看起来就是import FastMCP,然后写函数,参数形式,发请求。 MCP客户端和MCP server的桥梁 最最简单,就是个json:cline_mcp_settings.json Remote service x 各个被调用的服务,接收server.py发送的请求,响应,然后返回。 具体例子感受下MCP过程的输入输出 只有一个MCP服务,百度地图。 q=“北京玉渊潭公园逛完还能去哪?请帮我安排一下午的行程” 这个token量看着就恐怖…. ==第一次请求:== ==输入:== 系统prompt: 你是Cline,一名拥有广泛编程语言、框架、设计模式和最佳实践知识的高技能软件工程师。 [讲了一堆工具使用规则,格式,例子] [讲了一堆已有MCP工具,使用规则,例子,把baidu_map的map.py讲了一遍] [执行模式 vs 计划模式,讲了一堆] [规则,讲了一堆] [系统信息] 操作系统:Linux 4.18 默认Shell:/bin/bash 主目录:/root 当前工作目录:/home [目标] 你通过迭代方式完成任务,将其分解为清晰步骤并系统性地完成。 分析用户任务并设定明确、可实现的目标。按逻辑顺序排列这些目标优先级。 按顺序完成这些目标,根据需要逐步使用可用工具。每个目标应对应问题解决过程中的一个独立步骤。 在调用工具前,在标签内进行分析。首先分析environment_details中提供的文件结构以获取上下文。然后思考哪个工具最适合完成任务。接着检查工具所需参数是否已提供或可合理推断。如果所有必需参数都已具备,则使用工具;否则使用ask_followup_question工具询问缺失参数。 完成任务后必须使用attempt_completion工具向用户展示结果。 用户可能提供反馈,可用于改进并重试。但不要进行无意义的来回对话。 ==输出:== 用户要求规划北京玉渊潭公园游玩后的下午行程安排 系统已连接百度地图MCP服务器,可以提供地点搜索、路线规划等功能 需要查找玉渊潭公园附近的景点、餐饮、休闲场所等 需要合理安排时间顺序和交通方式 需要提供具体的地点信息和路线建议 我将使用百度地图MCP服务器的工具来获取相关信息并规划行程。\n\n<use_mcp_tool>\n<server_name>baidu-map</server_name>\n<tool_name>map_search_places</tool_name>\n\n{\n "query": "景点",\n "region": "北京",\n "location": "39.913818,116.363625", // 玉渊潭公园坐标\n "radius": 5000 // 5公里范围内搜索\n}\n\n</use_mcp_tool>" ...

March 30, 2025 · 小茄墩

Anthropic: 追踪大语言模型的思维

Claude这样的语言模型其实并非人类手把手编写出来——相反,它们是在大量数据上进行训练的。在训练过程中,它们学习自己的策略来解决问题。这些策略被编码在模型为每个词语所执行的数十亿次计算中。对于我们这些模型的开发者来说,这些策略难以解析理解。这意味着我们不理解模型是如何完成大多数任务的。 了解像Claude这样的模型如何思考,将使我们能够更好地理解它们的能力,并帮助我们确保它们正在执行我们期望的任务。例如: Claude可以说几十种语言。它在"思考"时使用的是什么语言,如果有的话? Claude一次写一个词。它是只专注于预测下一个词,还是有时会提前规划? Claude可以一步一步地写出它的推理过程。这种解释是否代表了它得出答案的实际步骤,或者它有时是为既定结论编造一个看似合理的论证? 我们从神经科学领域获得灵感,该领域长期以来一直研究思考生物的复杂内部机制,并尝试构建一种AI显微镜,让我们能够识别活动模式和信息流。仅仅通过与AI模型对话所能了解的内容是有限的——毕竟,人类(甚至神经科学家)也不知道我们自己的大脑是如何运作的所有细节。所以我们深入内部一探究竟。 今天,我们分享两篇新论文,这些论文代表了"显微镜"开发方面的进展,以及将其应用于观察新的"AI生物学"。在第一篇论文中,我们扩展了之前在模型内部定位可解释概念(“特征”)的工作,将这些概念连接成计算"circuit",揭示了将输入Claude的词转化为输出词的部分路径。在第二篇论文中,我们深入研究了Claude 3.5 Haiku内部,对代表十种关键模型行为的简单任务进行了深入研究,包括上述三种行为。我们的方法揭示了Claude响应这些提示词时发生的部分过程,这足以看到确凿的证据: 首先,Claude有时会在多种语言共享的概念空间中思考,这表明它拥有一种通用的"思想语言"。我们通过将简单句子翻译成多种语言并追踪Claude处理它们时的重叠部分来证明这一点。 其次,Claude会提前规划它要说的许多词,并为达到目标而写作。我们在诗歌领域展示了这一点,它会提前考虑可能的押韵词,并编写下一行诗句以达到押韵。这有力地证明,即使模型被训练为一次输出一个词,它们也可能在更长的时间范围内进行思考。 此外,Claude有时会给出一个听起来合理的论点,这个论点旨在附和用户而非遵循逻辑步骤。我们通过在给出错误提示的情况下要求它帮助解决一个困难的数学问题来展示这一点。我们能够"当场抓住"它编造假推理的过程,从而证明我们的工具可用于标记模型中令人担忧的机制。 我们经常对模型中看到的东西感到惊讶:在诗歌案例研究中,我们原本打算证明模型没有提前规划,但却发现它确实有这样做。在一项关于幻觉的研究中,我们发现了一个反直觉的结果——Claude的默认行为是在被问及问题时拒绝推测,它只会在某些因素抑制这种默认的不情愿时才回答问题。在回应一个越狱示例时,我们发现模型在能够优雅地将对话拉回正轨之前,就已经认识到它被要求提供危险信息。 虽然我们研究的问题可以(而且经常)通过其他方法进行分析,但通用的"构建显微镜"方法让我们学到了许多我们原本不会猜到的东西,这在模型变得更加复杂时将变得越来越重要。 这些发现不仅具有科学意义,它们还代表了我们在理解AI系统并确保其可靠性方面的重大进展。我们也希望它们对其他团体有所帮助,并可能在其他领域有所应用:例如,可解释性技术已在医学成像和基因组学等领域找到应用,因为解剖为科学应用而训练的模型的内部机制可以揭示关于科学的新见解。 同时,我们也认识到我们当前方法的局限性。即使对于简短、简单的提示词,我们的方法也只能捕获Claude执行的总计算的一小部分,而且我们看到的机制可能基于我们的工具有一些与底层模型实际情况不符的人工痕迹。目前,即使只是几十个词的提示词,理解我们看到的circuit也需要几个小时的人力。要扩展到支持现代模型使用的复杂思维链的数千个词,我们需要改进方法,并且(可能在AI的帮助下)改进我们理解所见的方式。 随着AI系统迅速变得更加强大并被部署在越来越重要的环境中,Anthropic正在投资一系列方法,包括实时监控、模型特性改进和对齐科学。像这样的可解释性研究是风险最高、回报最高的投资之一,这是一个重大的科学挑战,有可能提供一个独特的工具,确保AI是透明的。对模型机制的透明度使我们能够检查它是否与人类价值观一致,以及它是否值得我们信任。 有关完整详情,请阅读论文。下面,我们邀请您简要了解我们调查中一些最引人注目的"AI生物学"发现。 AI 生物学之旅 Claude 是如何实现多语言能力的? Claude 能流利地说数十种语言——从英语和法语到中文和塔加洛语。这种多语言能力是如何运作的?是否有独立的"法语 Claude"和"中文 Claude"并行运行,各自用自己的语言回应请求?还是内部存在某种跨语言的核心? 英语、法语和中文之间存在共享特征,表明概念存在一定程度的普遍性。 对较小模型的最新研究显示,不同语言之间存在共享的语法机制迹象。我们通过在不同语言中询问 Claude “small(小)的反义词"来进行调查,发现表示"小"和"反义"这些概念的相同核心特征被激活,并触发了"大"的概念,然后这个概念被翻译成问题所用的语言。我们发现,随着模型规模的增加,共享神经回路也增加,与较小的模型相比,Claude 3.5 Haiku 在语言之间共享的特征比例增加了两倍多。 这为概念通用性提供了额外的证据——一种共享的抽象空间,在这个空间中存在意义,思考可以在被翻译成特定语言之前发生。更实际地说,这表明 Claude 可以在一种语言中学习某些内容,并在使用另一种语言时应用这些知识。研究模型如何在不同上下文中共享其知识,对于理解其最先进的推理能力至关重要,这些能力可以跨多个领域进行泛化。 Does Claude plan its rhymes? Claude 如何写押韵诗歌?考虑这首小曲: He saw a carrot and had to grab it, His hunger was like a starving rabbit 要写出第二行,模型必须同时满足两个约束:需要押韵(与第一行末尾"抓起来"押韵),以及需要语义通顺(解释他为什么要抓胡萝卜)。我们的猜测是,Claude是逐字写作的,没有太多提前考虑,直到行尾才确保选择一个押韵的词。因此,我们预期会看到一个具有并行路径的神经网络结构,一条路径确保最后一个词语义合理,另一条确保它能押韵。 然而,我们发现Claude实际上会提前规划。在开始写第二行之前,它就开始"思考"与"抓起来"押韵且与主题相关的潜在词汇。然后,带着这些计划,它创作出一行以预先规划好的词作为结尾。 为了理解这种规划机制在实践中如何运作,我们进行了一项实验,其灵感来自神经科学家研究大脑功能的方式——通过精确定位并改变大脑特定部位的神经活动(例如使用电流或磁流)。在此实验中,我们修改了Claude内部状态中代表"兔子"概念的部分。当我们去除"兔子"这一概念,并让Claude继续完成这行诗句时,它写出了一个以"习惯"结尾的新诗句,这是另一个合理的补全。我们还可以在同一位置注入"绿色"的概念,这会促使Claude写出一个合理的(但不再押韵的)诗句,该诗句以"绿色"结尾。这一实验既展示了Claude的规划能力,也展示了其适应性灵活性——当预期结果发生变化时,Claude能够相应地调整其方法。 心算 Claude 并非设计为计算器——它是在文本上训练的,而非配备数学算法。但不知何故,它能在"脑中"正确地进行加法运算。一个训练用来预测序列中下一个词的系统,是如何学会计算,比如 36+59,而不用写出每一步呢? 也许答案并不有趣:模型可能已经记忆了大量的加法表,并且简单地输出任何给定和的答案,因为该答案存在于其训练数据中。另一种可能性是它遵循我们在学校学习的传统手工加法算法。 ...

March 28, 2025 · 小茄墩

Zero RL Training 成功的几个因素分析

SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild 摘要 DeepSeek-R1 已经表明,通过一个简单的强化学习(RL)框架,结合基于规则的奖励,长链式思考(CoT)推理可以自然地涌现。在这种框架下,训练可以直接从基础模型开始——这种范式被称 zero RL training。 近期,许多尝试复现零 RL 训练的工作主要集中在 Qwen2.5 模型系列上,但这可能不具有代表性,因为我们发现这些基础模型已经展现出强大的指令遵循和自我反思能力。 在这项工作中,我们研究了 10 个不同的基础模型上的零 RL 训练,这些模型涵盖了不同的系列和规模,包括 LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B 以及所有 Qwen2.5 模型(从 0.5B 到 32B)。 通过利用几个关键的设计策略——例如调整格式奖励和控制查询难度——我们在大多数设置中都实现了推理准确性和响应长度的显著提高。 然而,通过仔细监控训练动态,我们观察到不同的基础模型在训练过程中表现出不同的模式。 例如,响应长度的增加并不总是与某些认知行为的出现相关,例如验证(即“顿悟时刻”)。 值得注意的是,我们首次在非 Qwen 系列的小模型中观察到“顿悟时刻”。 我们分享了实现成功零 RL 训练的关键设计,以及我们的发现和实践。 为了促进进一步的研究,我们开源了代码、模型和分析工具。 介绍 回应长度的增加并不总是意味着“顿悟时刻”——有趣的是,对于构成当前大多数开源项目基础的 Qwen2.5 模型,尽管回应长度有所增加,我们并未观察到诸如自我反思等认知行为的频率有所上升。 我们首次观察到,在 Qwen 系列之外的小型模型中,尤其是在 Llama3-8B 和 DeepSeek-Math-7B 模型中,特定认知推理行为(例如验证)的频率显著增加。 强制执行严格的格式奖励(例如,将答案置于特定格式的框内)会显著抑制模型的探索能力,特别是对于那些最初难以遵循指令的基础模型。这种限制会降低它们的性能上限,并常常导致过度思考的行为。 训练数据的难度级别必须与基础模型的内在探索能力紧密对齐,否则零样本强化学习 (zero RL) 将会失败。 与 @shao2024deepseekmath 中的观察结果相反,零样本强化学习 (zero RL) 训练将 pass@k 准确率提高了 10-30 个绝对百分点,这是一个强有力的证据,证实零样本强化学习 (zero RL) 训练不仅仅是重新排序响应。 ...

March 27, 2025 · 小茄墩