OpenAI研究员姚顺雨:欢迎来到AI的下半场

下半场 摘要: 我们正处于 AI 的中场休息时间。 几十年来,人工智能(AI)在很大程度上是关于开发新的训练方法和模型。这确实奏效了:从在国际象棋和围棋比赛中击败世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到获得 IMO 和 IOI 金牌。在这些载入史册的里程碑背后——深蓝(DeepBlue)、AlphaGo、GPT-4 以及 o 系列——是 AI 方法的根本性创新:搜索、深度强化学习(deep RL)、规模化(scaling)和推理(reasoning)。随着时间的推移,一切都在变得更好。 那么,现在突然有什么不同了呢? 用三个词来说:RL 终于奏效了。更准确地说:RL 终于具备泛化能力了。在经历了几个重大的弯路和一系列里程碑的积累之后,我们终于找到了一个行之有效的秘诀,可以使用语言和推理来解决广泛的 RL 任务。即使在一年前,如果你告诉大多数 AI 研究人员,单一的秘诀就能处理软件工程、创意写作、IMO 级别的数学、鼠标键盘操作以及长篇问答——他们会嘲笑你的“幻觉”。这些任务中的每一项都极其困难,许多研究人员花费整个博士生涯专注于其中的一个狭窄领域。 然而,它确实发生了。 那么接下来会发生什么? AI 的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代,评估变得比训练更重要。我们不再仅仅问:“我们能训练一个模型来解决 X 问题吗?”,而是问:“我们应该训练 AI 做什么,以及我们如何衡量真正的进展?” 要在这个下半场茁壮成长,我们需要及时转变思维模式和技能组合,也许更接近产品经理所具备的那些。 上半场 要理解上半场,看看它的赢家。你认为迄今为止最具影响力的 AI 论文是哪些? 我试了斯坦福 224N 课程里的测验,答案并不令人意外:Transformer、AlexNet、GPT-3 等。这些论文有什么共同点?它们提出了一些根本性的突破来训练更好的模型。而且,它们通过在某些基准测试上展示出一些(显著的)改进而成功发表了论文。 不过,这里有一个潜在的共性:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使是公认最具影响力的基准测试 ImageNet,其引用次数也不到 AlexNet 的三分之一。方法与基准测试的对比在其他地方甚至更为悬殊——例如,Transformer 的主要基准测试是 WMT’14,其研讨会报告约有 1300 次引用,而 Transformer 的引用次数超过 16 万次。 这说明了上半场的游戏规则:专注于构建新的模型和方法,评估和基准测试是次要的(尽管对于让论文体系运作起来是必要的)。 为什么?一个重要原因是,在 AI 的上半场,方法比任务更难、更令人兴奋。从零开始创建一个新的算法或模型架构——想想反向传播算法、卷积网络(AlexNet)或 GPT-3 中使用的 Transformer 等突破——需要非凡的洞察力和工程能力。相比之下,为 AI 定义任务通常感觉更直接:我们只是将人类已经在做的任务(如翻译、图像识别或国际象棋)转化为基准测试。这不需要太多的洞察力,甚至不需要太多的工程。 方法也往往比单个任务更通用、适用范围更广,这使得它们尤为宝贵。例如,Transformer 架构最终推动了计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)以及许多其他领域的进步——远远超出了它首次证明自己的单一数据集(WMT’14 翻译)。一个优秀的新方法可以通过简单和通用性在许多不同的基准测试上取得进展(hillclimb),因此其影响往往超越单个任务。 这个游戏规则已经运行了几十年,激发了改变世界的想法和突破,这些都体现在各个领域不断提高的基准测试性能上。为什么这个游戏规则会改变呢?因为这些想法和突破的积累,在创造一个解决任务的有效秘诀方面,产生了质的飞跃。 ...

April 18, 2025 · 小茄墩

白话A2A

暴论:mcp,a2a发展到后面,本质是一回事,现在出现a2a是mcp刚起步,发展很不成熟;且谷歌想要标准制定权。毕竟无论是MCP还是A2A都是人定的标准,当系统复杂起来之后,两者会无限趋同 首先以一个简单的例子说明现在意义下的MCP和A2A 1)MCP (Model Context Protocol) - “工具箱协议” 简单来说:MCP就像是给AI配备了一个标准化的工具箱,让AI知道如何正确使用各种工具。 AI需要查天气时,MCP告诉它:“去这个网址,用这种格式请求,你会得到这种格式的天气数据” AI需要计算时,MCP说:“这个计算器接受这些数字格式,会返回这种结果” 2)A2A (Agent-to-Agent Protocol) - “AI之间的电话标准” 简单来说:A2A是让不同AI之间能够直接对话的标准,像不同国家的人用英语交流。 想象你(用户)需要规划一次旅行。你不必分别问导游AI路线、问天气AI天气、问餐厅AI美食推荐… 有了A2A,你只需告诉一个主AI:“帮我规划巴黎三日游” 然后,旅游AI会自动"打电话"给天气AI获取天气预报,“打电话"给餐厅AI获取美食推荐,“打电话"给地图AI规划最佳路线…最后把完整计划呈现给你。 笔者揣测:【是不是很像强大版的MCP…MCP请求的server可以是一个简单的工具,也可以是app,更可以是AI啊。】 关键区别: MCP:让AI知道如何使用工具(天气API、计算器等) A2A:让AI知道如何与其他AI交谈(不必共享代码、记忆或资源) 接下来开启正文:Google定义的A2A是啥? A2A系统中存在三个大的主体,用户,客户端(client|host),服务器(server,remote agent),各自,以及相互之间交互都定义了一套标准。 客户端: 就是一个主控。用于与 A2A 服务器(Agent)进行交互。负责接收用户请求、制定具体任务,并向远程代理提出需求,任务分发,接收响应。简单来说,就是知道什么Agent有什么能力,实现任务委派(支持异步执行)和结果整合。众所周知,Agent操作一次往往时间很长,因此在任务委派之后还会有个状态管理,时不时看一眼Agent结果返回了没有,要不要舍弃这次任务。既然是Agent,就应该是面向各种场景,流式非流式,传递各种类型的内容(文本、数据、文件),等等这些都需要规定标准。此外,还有维护会话状态和上下文等等脏活累活。从以上描述来看,往深了做,就是一个超级无敌复杂的系统。 服务器:可以简单理解为各类部署好的Agent。各类Agent需要遵循一套结构化模式。 以下简单展示Agent server的标准化定义结构。主要是Agent标准化定义+任务管理(怎么接受,怎么响应,应对流式请求…)。 客户端-服务器之间的交互:最简单就是一个json传来传去,此处采用JSON-RPC 2.0协议。往深了做,又是各种场景的优化。 JSON-RPC 2.0简单语法: --> 发送到服务器的数据 <-- 发送到客户端的数据 使用位置参数的 RPC 调用: --> {"jsonrpc": "2.0", "method": "subtract", "params": [42, 23], "id": 1} <-- {"jsonrpc": "2.0", "result": 19, "id": 1} --> {"jsonrpc": "2.0", "method": "subtract", "params": [23, 42], "id": 2} <-- {"jsonrpc": "2.0", "result": -19, "id": 2} 使用命名参数的 RPC 调用: --> {"jsonrpc": "2.0", "method": "subtract", "params": {"subtrahend": 23, "minuend": 42}, "id": 3} <-- {"jsonrpc": "2.0", "result": 19, "id": 3} --> {"jsonrpc": "2.0", "method": "subtract", "params": {"minuend": 42, "subtrahend": 23}, "id": 4} <-- {"jsonrpc": "2.0", "result": 19, "id": 4} 客户端-服务器之间信息传输的一个例子: 总结:LLM发展到现在,可以开始畅想Agent盛宴了。任何Agent在任何场所调用任何工具,有一个统一的标准会很好,于是有了MCP。任何人想要在任何场所任何环境调用任何Agent,于是又了A2A。但其实无需纠结谁是谁,无需纠结两者有没有重叠。因为在我看来都一样,就是我更好得解决问题的一种方式罢了。统一度量衡注定是有深远价值的。

April 14, 2025 · 小茄墩

重新思考预训练中的反思现象

《Rethinking Reflection in Pre-Training》 摘要 语言模型反思其自身推理过程的能力,是其解决复杂问题的关键优势。尽管近期多数研究聚焦于此能力在强化学习阶段如何发展,但我们展示了它实际上在更早的时期——即模型的预训练期间——便已开始显现。为研究此现象,我们故意在思维链中引入错误,并测试模型是否仍能通过识别并纠正这些错误来得出正确答案。通过追踪模型在预训练不同阶段的表现,我们观察到这种自我纠正能力出现较早,并随时间推移而稳步提升。例如,一个基于 4 万亿 Token 预训练的 OLMo-2-7B 模型,在我们设计的六项自我反思任务中展现了自我纠正能力。 引言 反思增强了模型根据先前推理调整其响应的能力,从而提高了其输出的准确性。最近的研究报告称,“诸如反思之类的行为……是模型与强化学习环境互动的结果”。若要将能力的发展归因于此来验证这类主张,则必须在整个训练阶段进行全面的评估。在这项工作中,我们提出了一个详尽的框架来衡量反思,并且我们观察到这种现象在预训练期间持续存在。 使用现有的推理数据集对反思进行基准测试一直具有挑战性。在这类任务中,反思通常是稀疏的,并且每个模型都表现出独特的错误模式,从而产生独特的反思行为表现。我们通过区分情境反思 (situational-reflection) 和自我反思 (self-reflection) 来应对这一挑战。在情境设置中,模型检查由另一个来源(例如不同的前沿模型)创建的推理链。在自我反思中,模型则考虑其自身的推理过程。我们校准模型在被提供一些导致错误答案的干扰性推理时解决任务的能力,并以此在整个预训练过程中衡量反思能力。 \['gsd', 'avdropj'\]”。 通过以编程方式引入错误的思维链 (Chains-of-Thought, CoTs),其特征包含算术扰动和逻辑不一致性等元素,我们可以控制和扩展正确完成这些任务所需的反思程度。这也保持了已建立的 CoT 格式 。此外,我们的算法方法允许通过调整已建立的推理基准,以相对快速和经济的方式创建这些数据集,这反过来又使得对模型在各种领域中的反思能力进行全面研究成为可能。我们的六个数据集,涵盖数学、编码、逻辑推理和知识获取领域,旨在评估情境反思和自我反思能力。 对来自 OLMo-2 模型家族、具有不同预训练计算量的检查点在我们这组六个不同数据集上进行评估的结果表明,反思在各个领域普遍存在。即使是一个简单的触发短语,如“Wait,”,也能使部分预训练的模型持续识别出引入的错误和它们自己产生的错误。具体来说,240 个数据集-检查点对中有 231 个展示了至少一个情境反思的实例,240 个对中有 154 个展示了至少一个自我反思的实例。随着预训练的增加,模型会纠正更多的对抗性示例,导致准确性与 $\log(\text{预训练计算量})$ 之间的平均皮尔逊相关系数在各项任务中达到 0.76。此外,随着预训练的进行,模型越来越多地从不正确的先前推理中恢复,模型生成中明确反思的比率增加,并且明确反思越来越多地有助于从干扰性 CoT 中恢复。 本文的贡献有三方面: 我们引入了一种系统化的方法,用于创建跨越代码、知识获取、逻辑推理和数学领域的六个数据集,以研究模型的反思能力。 我们证明了具有不同能力和训练计算量的预训练模型可以在广泛的领域中使用简单的插入语引发反思,以纠正不准确的先前推理。 我们观察到,持续改进的预训练可以带来更好的反思,从而能够用更少的测试时 Token 来解决相同数量的任务。 方法 定义反思 反思是一种元认知形式,涉及审视信息,评估其背后的推理过程,并基于该评估调整未来的行为。在大型语言模型的背景下,这个过程可以应用于从外部来源引入的信息或模型自身生成的信息。在这项工作中,我们创建了两种情境来引发和衡量反思: 情境反思是指模型反思由其他来源(例如不同的模型)创建的信息。 自我反思是指模型反思其自身生成的输出。 我们还通过两种形式来全面刻画反思: 显式反思 发生在模型生成的 Token 在其含义上识别并处理了对抗性情境中的错误时。显式反思可能出现在正确的模型输出中(换句话说,那些构成对我们对抗性任务的正确答案的输出),也可能出现在不正确的模型输出中。 隐式反思 发生在模型在对抗性情境中设法正确解决任务,但没有输出明确识别先前推理中错误的 Token 时。根据我们的定义,这意味着隐式反思不能导致对我们对抗性任务的错误回答。这使我们能够区分以下两种情况:其一,显式反思缺失但可以推断出发生了隐式反思;其二,根本没有发生任何反思。 使用对抗性反思数据集引发反思 我们提出了一种生成对抗性数据集的算法,该数据集能够引发语言模型的反思行为。该算法创建导致错误解的对抗性思维链 (CoT)。与自我反思(我们可以从模型自身的错误中汲取经验)不同,对于情境反思,我们必须设计人工的对抗性 CoT。从高层次来看,这些对抗性 CoT 是通过破坏正确的 CoT 来创建的,其方式模仿了人类的推理错误,例如逻辑失误和算术计算错误。在这两种情况下,当我们在上下文中提供 CoT 时,模型必须反思这些错误并修正它们,以得出正确的解。我们相信这些设置对于全面研究反思是必要的。 ...

April 14, 2025 · 小茄墩

字节Seed:Seed-Thinking-v1.5,超过R1

《Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning》 摘要 我们介绍 Seed-Thinking-v1.5,它能够在响应前通过思考进行推理,从而在广泛的基准测试中提高了性能。Seed-Thinking-v1.5 在 AIME 2024 上达到 86.7 分,在 Codeforces 上达到 55.0 分,在 GPQA 上达到 77.3 分,展示了在 STEM 和编码方面出色的推理能力。除了推理任务,该方法在不同领域也表现出显著的泛化能力。例如,在非推理任务上,它在胜率方面超过 DeepSeek R1 8%,表明其更广泛的适用性。与其他最先进的推理模型相比,Seed-Thinking-v1.5 是一个专家混合模型 (MoE),规模相对较小,具有 200 亿激活参数和 2000 亿总参数。作为我们评估泛化推理能力的一部分,我们开发了两个内部基准测试:BeyondAIME 和 Codeforces,这两个基准测试都将公开发布以支持未来的研究。 1 引言 在这项工作中,我们提出了一个名为 Seed-Thinking-v1.5 的新推理模型。该模型在推理任务和非推理任务中均表现出强大的性能。 数学推理: 在数学竞赛方面,Seed-Thinking-v1.5 在 AIME 2024 上取得了 86.7 分,与 o3-mini-high 的表现持平,并显著优于 o1 和 DeepSeek R1,展现出具有竞争力的实力。由于 AIME 2024 不再能提供足够的区分度,我们构建了一个更具挑战性的评估集,名为 BeyondAIME。BeyondAIME 中的所有问题均由人类专家全新策划设计,旨在最大限度地减少通过记忆或猜测解决问题的可能性。虽然 Seed-Thinking-v1.5 在 BeyondAIME 上的表现超越了 o1 和 R1,但与 o3 和 Gemini pro 2.5 相比,仍存在性能差距。这也进一步证明了这个新评估集的区分能力。 ...

April 10, 2025 · 小茄墩

字节Seed:PPO 在长思维链(Long-CoT)中崩溃的背后是什么?价值优化掌握着秘密

近端策略优化 $$ \mathcal{L}^{CLIP}(\theta)=\hat{\mathbb{E}}_t\left[\min\left(r_t(\theta)\hat{A}_t,\text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right] $$$$ \hat{A}_t=\sum_{l = 0}^{T-t-1}(\gamma\lambda)^l\delta_{t + l} $$ 其中 $\gamma$ 是折扣因子,$\lambda\in[0, 1]$ 是 GAE 参数,而 $\delta_t=r_t+\gamma V(s_{t + 1})-V(s_t)$ 是时序差分 (TD) 误差。此处,$r_t$ 是时间步 $t$ 的奖励,$V(s)$ 是价值函数。由于在 RLHF 中通常将折扣因子设为 $\gamma = 1.0$,为简化表示,我们在本文后续章节中省略了 $\gamma$。 识别并解决 PPO 在长 CoT 任务中的失败模式 在本节中,我们展示 PPO 在长 CoT 任务中的一个常见失败模式,并从理论和实证角度考察其与预训练及训练中价值偏差的关系。随后,我们提出实用的解决方案来改进 PPO,使其能够避免此类失败。 PPO 在长思维链 (CoT) 任务中的失败模式 在从人类反馈中进行强化学习 (Reinforcement Learning from Human Feedback, RLHF) 的领域应用 PPO 时,有两种常见的做法如下: 采用默认的广义优势估计 (Generalized Advantage Estimation, GAE),通常设置 $\lambda = 0.95$。 使用一个训练充分的奖励模型 (reward model) 来初始化价值模型 (value model)。 第一种做法起源于传统的强化学习文献,在这些文献中,PPO 已经在 Mujoco 和 Atari 等环境中得到了广泛的测试。在这些环境中,奖励 (rewards) 会沿着轨迹 (trajectory) 累积,导致回报 (return) 具有高方差。因此,方差缩减 (variance reduction) 变得十分必要。第二种做法则自然地源于奖励模型和价值模型之间的明显相似性,因为这两种模型都被训练用于预测关于响应 (response) 的标量信息 (scalar information)。然而,我们的实验揭示,将 PPO 轻率地应用于需要长思维链 (CoT) 的任务不可避免地会导致失败,具体如图1所示。 ...

April 9, 2025 · 小茄墩

字节Seed新作:VAPO:使用基于价值的强化学习框架进行长思维链推理

摘要 我们提出VAPO(面向推理模型的基于价值的增强型近端策略优化框架),这是一个专为推理模型设计的新型框架,立足于价值导向范式。在AIME 2024数据集的基准测试中,基于Qwen 32B预训练模型构建的VAPO获得了60.4的最高分。在完全相同的实验条件下进行直接对比时,VAPO的表现超过先前报告的DeepSeek-R1-Zero-Qwen-32B和DAPO模型10分以上。 VAPO的训练过程以稳定性和效率见长。它仅需5,000步即可达到最先进的性能水平。此外,在多次独立运行测试中,未出现任何训练崩溃现象,充分证明了其可靠性。 本研究深入探讨了使用基于价值的强化学习框架进行长思维链(long-CoT)推理。我们识别出影响基于价值方法的三个关键挑战:价值模型偏差、异构序列长度以及奖励信号稀疏性。通过系统化设计,VAPO提供了一个综合解决方案,有效缓解了这些挑战,从而提升了长思维链推理任务的性能表现。 引言 在大语言模型(LLM)的强化学习(RL)训练中,像 GRPO 和 DAPO 这样的无价值方法已展现出显著的有效性。这些方法消除了学习价值模型的计算开销,而是仅根据整个轨迹的最终奖励来计算优势。然后,轨迹级别的优势被直接分配为序列中每个位置的 Token 级别优势。当训练一个可靠的价值模型特别具有挑战性时,无价值方法通过对一个组内多个轨迹的奖励进行平均,为优势计算提供了一个准确且稳定的基线。这种基于组的奖励聚合减轻了对显式价值估计的需求,而显式价值估计在复杂任务中常常存在不稳定性。因此,无价值方法在解决诸如长思维链(CoT)推理等难题方面获得了显著的关注,大量的研究工作都集中在优化其框架上。 尽管不基于价值的方法已取得了显著成功,但我们认为,如果能够克服训练价值模型中的挑战,基于价值的方法则拥有更高的性能上限。首先,价值模型通过精确追踪每个动作对后续回报的影响,能够实现更精确的信用分配,从而促进更细粒度的优化。这对于复杂的推理任务尤为关键,因为在这类任务中,单个步骤的细微错误往往会导致灾难性的失败,而对于在不基于价值的框架下进行优化的模型而言,这仍然是一个挑战。其次,相较于不基于价值的方法中利用蒙特卡洛方法得出的优势估计,价值模型能为每个 Token 提供方差更低的值估计,进而增强训练的稳定性。此外,一个训练良好的价值模型展现出内在的泛化能力,使其能够更有效地利用在线探索过程中遇到的样本。这显著提升了强化学习算法的优化上限。因此,尽管为复杂问题训练价值模型面临着艰巨挑战,但克服这些困难所能带来的潜在收益是巨大的。然而,在长思维链(Long CoT)任务中训练一个完美的价值模型存在显著的挑战。第一,鉴于轨迹漫长以及以自举方式学习价值存在不稳定性,学习一个低偏差的价值模型并非易事。第二,同时处理长响应和短响应也颇具挑战性,因为它们在优化过程中可能对偏差-方差权衡表现出截然不同的偏好。最后但同样重要的是,来自验证者的奖励信号的稀疏性,因长思维链模式而进一步加剧,这内在地要求采用更好的机制来平衡探索与利用。为应对上述挑战并充分释放基于价值的方法在推理任务中的潜力,我们提出了Value Augmented proximal Policy Optimization(VAPO),一个基于价值的强化学习训练框架。VAPO 从 VC-PPO 和 DAPO 等先前的研究工作中汲取灵感,并对其概念进行了进一步扩展。我们将我们的主要贡献总结如下: 我们引入了 VAPO,这是首个在长 COT 任务上显著优于无价值方法的基于价值的强化学习 (RL) 训练框架。VAPO 不仅表现出显著的性能优势,而且还展示了更高的训练效率,简化了学习过程,并突显了其作为该领域新基准的潜力。 我们提出了长度自适应 GAE (Length-adaptive GAE),它根据响应长度自适应地调整 GAE (Generalized Advantage Estimation) 计算中的 $\lambda$ 参数。通过这样做,它有效地满足了与长度差异极大的响应相关的独特偏差-方差权衡需求。因此,它优化了优势估计过程的准确性和稳定性,特别是在数据序列长度变化广泛的场景中。 我们系统地整合了先前工作的技术,例如来自 DAPO 的 Clip-Higher 和 Token 级损失 (Token-level Loss),来自 VC-PPO 的价值预训练 (Value-Pretraining) 和解耦 GAE (Decoupled-GAE),来自 SIL 的自模仿学习 (self-imitation learning),以及来自 GRPO 的组采样 (Group-Sampling)。此外,我们通过消融研究进一步验证了这些技术的必要性。 VAPO 是一个有效的强化学习系统,它整合了这些改进。这些改进平稳地协同作用,产生的整体效果优于各独立部分的总和。我们使用 Qwen2.5-32B 预训练模型进行实验,确保在所有实验中均未引入 SFT 数据,以保持与相关工作(DAPO 和 DeepSeek-R1-Zero-Qwen-32B)的可比性。VAPO 的性能得分相较于原始 PPO 从 5 分提升至 60 分,超越了先前最先进的(SOTA)不依赖价值函数的方法 DAPO 10 分。更重要的是,VAPO 非常稳定 —— 我们在训练期间没有观察到任何崩溃,并且多次运行的结果高度一致。 ...

April 8, 2025 · 小茄墩

DeepSeek-GRM:通用奖励模型实现有效推理时间扩展

摘要 强化学习(RL)已被广泛应用于大规模大语言模型(LLMs)的后训练阶段。最近,通过强化学习激励大语言模型推理能力的实践表明,适当的学习方法可以实现有效的推理时可扩展性。强化学习的一个关键挑战是在可验证问题或人为规则之外的各种领域中为大语言模型获取准确的奖励信号。在这项工作中,我们研究了如何通过增加推理计算来改进通用查询的奖励建模(RM),即**,并进一步研究如何通过适当的学习方法提高性能-计算扩展的有效性。 对于奖励建模方法,我们采用pointwise generative reward modeling(GRM),以便为不同输入类型提供灵活性,并具备推理时扩展的潜力。对于学习方法,我们提出了Self-Principled Critique Tuning(SPCT),通过在线强化学习在 GRM 中培养可扩展的奖励生成行为,以自适应地生成原则并准确地进行批判,从而产生了DeepSeek-GRM模型。此外,为了实现有效的推理时扩展,我们使用并行采样来扩展计算使用量,并引入了一个元奖励模型来指导投票过程以获得更好的扩展性能。实验表明,SPCT 显著提高了 GRM 的质量和可扩展性,在各种奖励建模基准测试中优于现有方法和模型,且没有严重的偏见,并且与训练时扩展相比可以实现更好的性能。DeepSeek-GRM 在某些任务中仍然面临挑战,我们相信这可以通过未来在通用奖励系统方面的努力来解决。这些模型将被发布并开源。 引言 我们能否设计一种旨在为通用奖励模型实现有效推理时间扩展的学习方法? 在这项工作中,我们研究了不同的[奖励模型方法],发现逐点生成式奖励建模(GRM)可以在纯语言表示内统一对单个、成对和多个响应的评分,从而克服了挑战(1)。我们探索发现,某些原则可以在适当的标准内指导生成式奖励模型的奖励生成过程,进而提高奖励质量,这启发了我们:奖励模型的推理时间可扩展性或许可以通过扩展高质量原则和准确批判的生成来实现。 基于这一初步认识,我们提出了一种新颖的[学习方法],自我原则化批判调优(SPCT),旨在培养生成式奖励模型中有效的推理时间可扩展行为。通过利用基于规则的在线强化学习,SPCT使生成式奖励模型能够学习根据输入查询和响应自适应地设定原则和批判,从而在通用领域产生更好的结果奖励(挑战(2))。随后,我们开发了DeepSeek-GRM-27B,该模型基于Gemma-2-27B,并使用SPCT进行了后训练。对于[推理时间扩展],我们通过多次采样来扩展计算资源的使用。通过并行采样,DeepSeek-GRM可以生成不同的原则集合以及相应的批判,然后通过投票决定最终奖励。通过更大规模的采样,DeepSeek-GRM能够基于多样性更高的原则进行更准确的判断,并输出粒度更精细的奖励,这解决了挑战(3)&(4)。此外,除了通过投票方式,我们还训练了一个元奖励模型以获得更好的扩展性能。实验证明,SPCT显著提高了生成式奖励模型的质量和可扩展性,在多个综合性奖励模型基准测试中表现优于现有方法和模型,且没有表现出严重的领域偏差。我们还将DeepSeek-GRM-27B的推理时间扩展性能与参数量高达671B的更大模型进行了比较,发现相较于通过增大模型规模进行训练时间扩展,我们的方法能实现更优的性能。尽管当前方法在效率和特定任务方面仍面临挑战,但我们相信,通过SPCT及后续的努力,具有增强可扩展性和效率的生成式奖励模型可以作为通用奖励系统的多功能接口,推动大语言模型后训练和推理领域的前沿发展。 总的来说,我们的主要贡献如下: 我们提出了一种名为 自洽原则批判调整(SPCT) 的新颖方法,旨在提升通用奖励模型有效的推理时可扩展性,并由此产生了 DeepSeek-GRM 模型。此外,我们还引入了一个元奖励模型(meta RM),以在投票机制之外有效提升 DeepSeek-GRM 的推理时扩展性能。 我们通过实验证明,相较于现有方法及若干强大的公开模型,SPCT 显著提升了通用奖励模型(GRM)的质量和推理时可扩展性。 我们亦将 SPCT 训练方案应用于更大规模的大语言模型(LLM),并发现就训练时间而言,推理时扩展的表现可能优于模型规模扩展。 不同奖励模型(RM)方法的比较 如图2所示,奖励模型(RM)方法主要由奖励生成范式和评分模式决定,这从本质上影响了 RM 的推理时可扩展性和输入灵活性。对于奖励生成范式,我们区分三种主要方法:标量、半标量和生成式。标量方法为给定的查询和响应分配标量值,而半标量方法既生成文本判断(称为“评语”),也生成标量奖励值。生成式方法仅生成作为文本奖励的评语,奖励值可从中提取。对于评分模式,我们区分两种主要方法:逐点式和配对式。逐点式方法为每个响应分配一个独立的分数,而配对式方法则从所有候选响应中选择单个最佳响应。为了扩展推理时的计算使用,我们关注基于采样的方法,这些方法为相同的查询和响应生成多组奖励,然后聚合得到最终奖励。因此,RM 的推理时可扩展性取决于是否能通过多次采样获得不同的奖励,而标量 RM 在大多数情况下会因此失效,因为其奖励生成是不变的;输入灵活性则定义为 RM 是否支持对单个、成对以及多个响应进行评分,其中配对式 RM 几乎无法对单个响应评分,并且通常需要额外技术来处理多个响应。逐点式生成式奖励模型(GRM)的公式为: 其中 $x$ 是查询,$y_i$ 是第 $i$ 个响应,$r_{\theta}$ 是由 $\theta$ 参数化的奖励函数,$\mathcal{R}$ 是奖励,$\boldsymbol{C}$ 是评价,$S_i$ 是 $y_i$ 的个体分数,而 $f_{\mathrm{extract}}(\cdot)$ 从生成结果中提取奖励。通常,奖励是离散的,并且在这项工作中,我们默认分配 $S_i \in \mathbb{N}, 1 \leq S_i \leq 10$。 ...

April 6, 2025 · 小茄墩

Llama 4 家族:原生多模态 AI 创新新纪元的开端

1. 要点 三大模型概览:Llama 4 Scout(小型)、Llama 4 Maverick(中型)、Llama 4 Behemoth(大型),Behemoth还在训练,其余模型都是Behemoth蒸馏而来。 技术参数对比: 性能优势:多模态能力、Maverick在LMArena 1714分,Behemoth 声称击败所有模型 部署效率:单GPU适配 2. 预训练 MoE架构原理:参数激活机制、计算效率提升 多模态融合:早期融合技术、文本与视觉token集成 视觉增强:改进的MetaCLIP视觉编码器 训练创新:MetaP超参数设置、FP8精度训练 数据规模:30万亿Token、200种语言支持 上下文扩展:中期训练阶段、1000万Token长度 3.后训练 多模态挑战:不同输入模态平衡 优化流程:轻量级SFT → 在线RL → 轻量级DPO 数据策略:模型评判器过滤、难度筛选 迭代方法:连续在线强化学习、自适应过滤 效果验证:智能与对话能力平衡 4.模型特性与能力 Maverick特点:大规模专家(128)、跨语言应用、创意写作 Scout创新:iRoPE架构、交错注意力层、无位置嵌入 长上下文技术:推理时温度缩放、旋转位置嵌入 视觉理解:多图像处理(最多48张)、时间相关活动理解 图像定位:精确视觉问答、对象定位能力 5. 2T Behemoth模型 规模与定位:288B活跃参数、2T总参数、教师模型角色 蒸馏技术:共同蒸馏、动态加权损失函数 训练挑战:95%数据裁剪、大规模强化学习 提示词策略:难度递增计划、零优势动态过滤 基础设施创新:异步在线RL框架、灵活GPU分配 效率提升:训练速度10倍提升、资源平衡 以下为原文:包含更多细节 预训练 构建下一代 Llama 模型要求我们在预训练期间采取几种新方法。 我们新的 Llama 4 模型是我们首批使用混合专家(MoE)架构的模型。在 MoE 模型中,单个 Token 仅激活总参数中的一小部分。MoE 架构在训练和推理方面计算效率更高,并且在给定的固定训练 FLOPs 预算下,与密集模型相比,能够提供更高的质量。 例如,Llama 4 Maverick 模型包含 17B (170亿) 活跃参数和 400B (4000亿) 总参数。我们交替使用密集层和混合专家 (MoE) 层以提升推理效率。MoE 层使用了 128 个路由专家和一个共享专家。每个 token 会被发送到共享专家,同时也会发送到 128 个路由专家中的一个。因此,尽管所有参数都存储在内存中,但在运行这些模型进行服务时,只有总参数的一个子集会被激活。这通过降低模型服务成本和延迟来提高推理效率——Llama 4 Maverick 既可以在单台 NVIDIA H100 DGX 主机上运行以便于部署,也可以通过分布式推理实现最高效率。 Llama 4 模型采用原生多模态设计,并结合了早期融合技术,将文本和视觉 token 无缝集成到统一的模型骨干网络中。早期融合是一项重大进步,因为它使我们能够利用大量未标记的文本、图像和视频数据对模型进行联合预训练。我们还改进了 Llama 4 中的视觉编码器。该编码器基于 MetaCLIP,但与一个冻结的 Llama 模型协同进行了单独训练,旨在使编码器能更好地适配大语言模型 (LLM)。 ...

April 6, 2025 · 小茄墩

multi token attention

摘要 Soft attention机制是驱动大语言模型 (LLM) 在给定上下文中定位相关部分的关键机制。然而,单个注意力权重仅由单个查询和键 Token 向量的相似性决定。这种“单 Token 注意力”限制了用于区分相关部分与上下文其余部分的信息量。为了解决这个问题,我们提出了一种新的注意力方法,多 Token 注意力(MTA),它允许大语言模型同时基于多个查询和键向量来调节其注意力权重。这是通过对查询、键和头应用卷积运算来实现的,从而允许附近的查询和键相互影响彼此的注意力权重,以实现更精确的注意力。因此,我们的方法可以使用更丰富、更细致的信息来定位相关上下文,这些信息可以超过单个向量的容量。通过广泛的评估,我们证明了 MTA 在一系列流行的基准测试中实现了增强的性能。值得注意的是,它在标准语言建模任务以及需要在长上下文中搜索信息的任务上优于 Transformer 基线模型,在这些任务中,我们的方法利用更丰富信息的能力被证明特别有益。 多头注意力机制背景 $$ K = H W_k , \quad V = H W_v, \quad Q = H W_q $$$$ \hat{A}={QK^\top}/{\sqrt{d}}, \quad A = \text{Softmax}( \text{Mask}_{-\infty}(\hat{A}) ), \label{eq:attn} $$ 其中 softmax 函数作用于 key 的维度,mask 函数将 $(i,j)$ 位置的值替换为 $-\infty$,当 $i...

April 3, 2025 · 小茄墩

截止2025年4月,好用的语音克隆方案

商业产品 ==Cartesia Sonic 2.0== 天花板,团队实力极强。但中文一般 ==TicVoice 7.0== 出门问问出品。商业级高品质TTS,3秒克隆,MOS评分4.7。其开源Spark-TTS ==CosyVoice 2.0== 阿里巴巴出品。多语言/方言支持,高情绪复刻 已开源 ==ElevenLabs== 老牌产品了,130+语言支持,高真实度 ==Reecho== 中文优化 ==MiniMax== 很稳 ==seasame== 很惊艳 开源 部署玩就是了 ==CosyVoice 2.0== ==GPT-SoVITS v3== ==Step-Audio== ==Spark-TTS== ==MegaTTS 3== ==F5-TTS==

April 2, 2025 · 小茄墩