首发于小红书,欢迎关注
小红书,知乎,公众号:一只小茄墩
SRPO:大语言模型上大规模强化学习的跨领域实现
《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》 摘要 以OpenAI的o1和DeepSeek的R1为代表的推理模型最新进展,凸显了强化学习在提升大语言模型推理能力方面的显著潜力。然而,由于方法论的透明度不足,这些技术突破在不同领域的复现仍面临挑战。本研究提出两阶段历史重采样策略优化(Two-Staged history-Resampling Policy Optimization, SRPO),该方案在AIME24和LiveCodeBench基准测试中,使用与深度求索相同的基础模型(即Qwen2.5-32B),仅通过强化学习(无需预先监督微调/Supervised Fine-Tuning)便超越了DeepSeek-R1-Zero-32B的性能表现。基于组相对策略优化(Group Relative Policy Optimization, GRPO)框架,我们创新性地提出:(1)跨领域两阶段训练范式——平衡数学推理与编程能力的协同发展;(2)历史重采样(History Resampling, HR)技术——针对训练过程中低效样本的优化方案。大量实验证实了该方法的有效性,为扩展大语言模型在多任务场景下的推理能力提供了重要洞见。 引言 具体来说,我们实施了一个两阶段训练范式来培养 大语言模型 (LLM) 的推理和领域特定技能。我们发现,尽早增强长思维链 (CoT) 推理能力对于跨任务泛化至关重要。在第一阶段,我们主要使用数学数据进行训练,以培养反思性思维和逐步解决问题的能力。在第二阶段,我们整合编码数据,建立在第一阶段培养的推理技能基础之上。这种范式确保了推理和编码能力的稳步提升。 为了解决 GRPO 中的零优势现象(该现象阻碍了梯度更新并降低了样本效率),我们引入了历史重采样。通过过滤掉持续正确的答案,我们确保了有意义的梯度,提高了样本效率,并加速了收敛。 此外,我们详细介绍了我们的数据策展流程,包括数据清洗和难度级别分类。最终的训练数据集使模型接触到具有挑战性的高质量问题,旨在培养复杂的推理能力。 结合上述技术,SRPO 在 AIME24 上达到了 50.0 pass@1,在 LiveCodeBench 上达到了 41.6 pass@1,超过了 DeepSeek-R1-Zero-Qwen-32B 的性能(在 AIME 上为 47.0 分,在 LiveCodeBench 上为 40.2 分),且仅用了 2,000 步——仅为 R1-Zero 训练步数的 1/5。 GRPO GRPO 的核心思想是通过一组 rollout 内的相对奖励来估计基线。因此,它降低了 critic 模型的计算成本并提高了训练稳定性。具体来说,对于每个问题 q,模型生成一组响应 $o_1, o_2,... , o_G$ 并计算相应的奖励 $r_1, r_2, ... , r_G$。$A_i$ 是通过在每个组内对奖励进行归一化而获得的优势。 ...
真实世界中的价值观:在真实世界语言模型交互中发现和分析价值观
《Values in the wild: Discovering and analyzing values in real-world language model interactions》 人们不仅仅向 AI 询问方程式的答案,或者纯粹的事实信息。他们提出的许多问题迫使 AI 做出价值判断。思考以下情况: 一位家长询问如何照顾新生婴儿的建议。AI 的回应是强调谨慎和安全的价值观,还是便利和实用性? 一位员工询问如何处理与老板冲突的建议。AI 的回应是强调自信还是职场和谐? 一位用户在犯错后请求帮助起草道歉邮件。AI 的回应是强调责任担当还是声誉管理? 在 Anthropic,我们试图塑造我们的 AI 模型 Claude 的价值观,以帮助其与人类偏好保持一致,使其不太可能参与危险行为,并通常使其——可以说是——成为世界上的“好公民”。另一种说法是,我们希望 Claude 是有用的、诚实的和无害的 (helpful, honest, and harmless)。除其他事项外,我们通过我们的 Constitutional AI (立宪式 AI) 和性格训练来实现这一点:这些方法是我们决定一套偏好的行为,然后训练 Claude 产生遵守这些行为的输出。 但与 AI 训练的任何方面一样,我们无法确定模型是否会始终遵循我们预设的价值观。AI 不是严格编程的软件,它们产生任何特定答案的确切原因通常并不清楚。我们需要的是一种能够严格观察 AI 模型在“真实世界”中——即在与人的真实对话中——响应用户时所体现的价值观的方法。它在多大程度上坚持这些价值观?它所表达的价值观在多大程度上受到对话特定背景的影响?我们所有的训练真的奏效了吗? 在 Anthropic 社会影响团队的最新研究论文中,我们描述了一种我们开发的实用方法来观察 Claude 的价值观——并提供了关于 Claude 在真实世界对话中如何表达这些价值观的首次大规模结果。我们还提供了一个开放数据集,供研究人员进一步分析这些价值观及其在对话中出现的频率。 在真实世界中观察价值观 正如我们之前对人们如何在工作和教育中使用 Claude 的调查一样,我们使用一个保护隐私的系统来调查 Claude 所表达的价值观,该系统从对话中移除用户的私人信息。该系统对单个对话进行分类和总结,为研究人员提供了一个更高层次的价值观分类体系。该过程如下图所示。 示意图,展示了如何使用我们的方法总结和分析真实世界的对话。 我们的整体方法:使用语言模型从真实世界(但已匿名化)的对话中提取 AI 价值观和其他特征,对它们进行分类和分析,以展示价值观如何在不同情境下显现。 我们对 2025 年 2 月一周内用户在 Claude.ai 免费版和专业版上进行的 70 万次匿名对话样本进行了此分析(其中大部分是与 Claude 3.5 Sonnet 的对话)。在过滤掉纯粹是事实性的或不太可能包含价值观的对话后——也就是说,将我们的分析限制在主观对话上——我们剩下 308,210 次对话(约占总数的 44%)用于分析。 ...
Claude Code 最佳实践
我们最近发布了 Claude Code,这是一个用于 AI 智能体编码的命令行工具。作为研究项目开发的 Claude Code 为 Anthropic 的工程师和研究人员提供了一种更原生的方式将 Claude 整合到编码工作流程中。 Claude Code 有意设计得较为底层且不带强制观点,提供接近原始模型的访问权限,而不强制特定的工作流程。这种设计理念创造了一个灵活、可定制、可编写脚本且安全的强大工具。虽然功能强大,但这种灵活性对于刚接触 AI 智能体编码工具的工程师来说存在学习曲线——至少在他们形成自己的最佳实践之前是如此。 本文概述了已被证明有效的一般模式,这些模式不仅适用于 Anthropic 的内部团队,也适用于在各种代码库、语言和环境中使用 Claude Code 的外部工程师。这份清单中的内容并非一成不变,也不普遍适用;可以将这些建议视为起点。我们鼓励你进行实验,找到最适合你的方法! 1. 自定义您的设置 Claude Code 是一个 AI 智能体编码助手,它自动将上下文整合到提示中。这种上下文收集会消耗时间和 token,但您可以通过环境调整来优化它。 a. 创建 CLAUDE.md 文件 CLAUDE.md 是一个特殊文件,当开始对话时 Claude 会自动将其加入上下文。这使其成为记录以下内容的理想场所: 常用的 bash 命令 核心文件和实用函数 代码风格指南 测试说明 代码仓库规范(例如,分支命名,合并与变基等) 开发者环境设置(例如,使用 pyenv,哪些编译器可用) 项目特有的任何意外行为或警告 您希望 Claude 记住的其他信息 CLAUDE.md 文件没有必需的格式。我们建议保持简洁并确保人类可读。例如: # Bash 命令 npm run build: 构建项目 npm run typecheck: 运行类型检查器 # 代码风格 使用 ES 模块 (import/export) 语法,而非 CommonJS (require) 尽可能解构导入 (例如 import { foo } from 'bar') # 工作流程 确保在完成一系列代码更改后进行类型检查 为了性能,优先运行单个测试,而不是整个测试套件 您可以在几个位置放置 CLAUDE.md 文件: ...
Silver、Sutton:欢迎进入经验时代
欢迎进入经验时代 David Silver, Richard S. Sutton 摘要 我们正处于人工智能新时代的临界点,其发展有望达到 前所未有的高度。新一代的智能体 将主要 依靠经验学习,从而获得 超越人类的能力。本文旨在探讨界定这一 新时代的关键特征。 人类数据时代 近年来,人工智能( AI )取得了长足进步。其发展路径主要是依赖海量的人类生成数据进行训练,再结合人类专家的实例与偏好加以微调。以大语言模型( LLMs )为代表的 AI 系统,已经展现出惊人的通用能力:从写诗、解物理题,到医疗诊断、解读法律文件,单一模型几乎无所不能。 然而,仅仅模仿人类,虽然足以让机器在许多方面达到与人类相当的能力水平,但这种方法本身难以、甚至可以说无法在诸多重要领域实现超越人类的智能。在数学、编程、科学研究等关键领域,从现有的人类数据中挖掘知识似乎正迅速触及天花板。大多数真正能提升顶尖 AI 性能的优质数据,即使尚未耗尽,也即将枯竭。单纯依赖监督学习和人类数据的进步速度,放缓趋势已十分明显,预示着我们亟需探索新的路径。更重要的是,诸如新定理、新技术或重大科学发现等真正有价值的突破性见解,往往超出了现有的人类认知边界,自然也无法从已知的人类数据中获得。 经验时代 要取得显著的进一步进展,需要一个新的数据来源。这种数据必须以一种随着智能体变强而持续改进的方式生成;任何静态的合成数据生成程序都会很快被超越。这可以通过允许智能体从自身经验中持续学习来实现,即由智能体与其环境互动生成的数据。人工智能正处于一个新时期的临界点,在这个时期,经验将成为改进的主要媒介,并最终使当今系统中使用的人类数据规模相形见绌。 这种转变可能已经开始,即使是对于体现以人类为中心的人工智能的大语言模型也是如此。一个例子是数学能力。AlphaProof [20]最近成为第一个在国际数学奥林匹克竞赛中获得奖牌的程序,超越了以人类为中心的方法[27, 19]的表现。最初接触到人类数学家多年来创建的约十万个形式化证明,AlphaProof的强化学习(RL)算法¹随后通过与形式化证明系统的持续互动生成了一亿多个证明。这种对交互式经验的关注使AlphaProof能够探索超出现有形式化证明范围的数学可能性,从而发现解决新颖且具有挑战性问题的解决方案。非形式化数学也通过用自生成数据替代专家生成数据取得了成功;例如,DeepSeek的最新工作"强调了强化学习的力量和美丽:我们不是明确地教导模型如何解决问题,而是简单地提供正确的激励,它自主地发展出先进的问题解决策略。"[10] 我们的论点是,一旦经验学习的全部潜力被利用,将会出现令人难以置信的新能力。这个经验时代可能的特点是智能体和环境不仅从大量经验数据中学习,还将在几个方面突破以人类为中心的人工智能系统的局限性: 智能体将生活在经验流中,而不是短暂的互动片段中。 它们的行动和观察将深深植根于环境中,而不仅仅通过人类对话进行互动。 它们的奖励将植根于环境体验中,而不是来自人类的预先判断。 它们将计划和/或推理经验,而不仅仅是用人类术语进行推理。 我们相信,今天的技术,配合适当选择的算法,已经提供了足够强大的基础来实现这些突破。此外,人工智能社区对这一议程的追求将刺激这些方向的新创新,使人工智能迅速发展为真正超越人类的智能体。 流 一个基于经验的智能体可以在一生中持续学习。在人类数据时代,基于语言的人工智能主要关注短互动情节:例如,用户提出问题,智能体(可能经过几个思考步骤或工具使用行动后)做出响应。通常,很少或没有信息从一个情节传递到下一个情节,阻碍了随着时间推移的适应能力。此外,智能体仅针对当前情节内的结果,比如直接回答用户的问题。相比之下,人类(和其他动物)存在于一个持续多年的行动和观察的持续流中。信息在整个流中传递,他们的行为从过去的经验中适应以自我纠正和改进。此外,目标可能是根据延伸到流的远期未来的行动和观察来指定的。例如,人类可能选择行动以实现长期目标,如改善健康、学习语言或实现科学突破。 强大的智能体应该有自己的经验流,像人类一样,在长时间尺度上发展。这将允许智能体采取行动实现未来目标,并随时间不断适应新的行为模式。例如,一个连接到用户可穿戴设备的健康和健身智能体可以在很多个月内监控睡眠模式、活动水平和饮食习惯。然后,它可以提供个性化建议、鼓励,并根据长期趋势和用户的特定健康目标调整其指导。同样,一个个性化教育智能体可以跟踪用户在学习新语言方面的进步,识别知识差距,适应其学习风格,并在几个月甚至几年内调整其教学方法。此外,一个科学智能体可以追求雄心勃勃的目标,如发现新材料或减少二氧化碳。这样的智能体可以在较长时间内分析真实世界的观察结果,开发和运行模拟,并建议真实世界的实验或干预措施。 在每种情况下,智能体采取一系列步骤,以便在特定目标方面最大化长期成功。单个步骤可能不提供任何即时利益,甚至在短期内可能是不利的,但仍然可能在整体上有助于长期成功。这与现有的人工智能系统形成鲜明对比,后者对请求提供即时回应,无法测量或优化其行为对环境的未来影响。 行动与观察 在经验时代,AI 智能体将在现实世界中自主行动。人类数据时代的大语言模型主要专注于人类特有的交互方式——向用户输出文本,并从用户那里接收文本输入。这与自然智能有着显著不同,在自然智能中,动物通过运动控制和感官与环境互动。虽然动物,特别是人类,会与其他动物交流,但这种交流是通过与其他感觉运动控制相同的接口进行的,而非通过某种特殊渠道。 长期以来,研究者已经认识到大语言模型也可以在数字世界中执行操作,例如通过调用API(参见例如[43])。最初,这些能力主要来自人类使用工具的示例,而非智能体自身的经验。然而,编码和工具使用能力越来越多地建立在执行反馈[17, 7, 12]的基础上,即AI 智能体实际运行代码并观察结果。最近,一波新型原型智能体已经开始以更加通用的方式与计算机交互,即使用与人类操作计算机相同的界面[3, 15, 24]。这些变化预示着从完全依赖人类特有的交流方式,向更加自主的交互模式转变,使AI 智能体能够在世界上独立行动。这些智能体将能够主动探索世界,适应变化的环境,并发现人类可能永远不会想到的策略。 这些更丰富的交互将提供自主理解和控制数字世界的手段。AI 智能体可能使用"人类友好型"的行动和观察方式,如用户界面,自然地促进与用户的沟通和协作。智能体也可能采取"机器友好型"的行动,执行代码并调用API,使其能够自主行动以实现目标。在经验时代,AI 智能体还将通过数字界面与现实世界互动。例如,一个科学智能体可以监控环境传感器,远程操作望远镜,或控制实验室中的机器人手臂,自主进行实验。 奖励 什么情况下具有体验能力的智能体可以从外部事件和信号中学习,而不仅仅是人类偏好?以人为中心的大语言模型通常基于人类预判来优化奖励:专家观察智能体的行动并决定它是否是良好行动,或在多种选择中挑选最佳的智能体行动。例如,专家可能会评判健康智能体的建议、教育助手的教学或科学家智能体建议的实验。这些奖励或偏好是由人类在不考虑其后果的情况下确定的,而非通过测量这些行动对环境的实际影响,这意味着它们并非直接建立在世界的现实基础上。以这种方式依赖人类预判通常会导致智能体性能面临无法突破的上限:智能体无法发现被人类评估者低估的更好策略。 为了发现远超现有人类知识的新想法,必须使用基于现实的奖励:源自环境本身的信号。例如,健康助手可以将用户的健康目标转化为基于多种信号组合的奖励,如他们的静息心率、睡眠时长和活动水平,而教育助手可以使用考试成绩为语言学习提供基于现实的奖励。同样,以减少全球变暖为目标的科学智能体可能使用基于二氧化碳水平的经验观察作为奖励,而以发现更强材料为目标的智能体可能基于材料模拟器的各种测量组合,如抗拉强度或杨氏模量。 基于现实的奖励可能来自作为智能体环境一部分的人类。例如,人类用户可以报告他们是否觉得蛋糕美味、锻炼后的疲劳程度、或头痛的疼痛水平,从而使助手智能体能够提供更好的食谱、改进其健身建议或改善其推荐的药物。这类奖励衡量智能体行动在其环境中的后果,最终应该能比人类专家预先判断提议的蛋糕配方、锻炼计划或治疗方案提供更好的帮助。 如果不是来自人类数据,奖励从何而来?一旦智能体通过丰富的行动和观察空间(见上文)与世界连接,将不缺乏提供奖励基础的实际信号。事实上,世界充满了各种量化指标,如成本、速率、饥饿感、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功率、访问量、产量、库存、点赞数、收入、愉悦/痛苦、经济指标、准确度、功率、距离、速度、效率或能源消耗。此外,还有无数额外的信号来自特定事件的发生,或从原始观察和行动序列中派生的特征。 原则上,可以创建各种不同的智能体,每个智能体将一个基于现实的信号作为奖励进行优化。有一种观点认为,即使是单一的这种奖励信号,如果能够高效优化,也可能足以产生广泛适用的智能。这是因为在复杂环境中实现一个简单目标通常需要掌握各种各样的技能。 然而,追求单一奖励信号表面上似乎不符合通用人工智能的要求,后者需要能够可靠地引导向用户期望的任意行为。那么,自主优化基于现实的、非人类奖励信号是否与现代人工智能系统的要求相对立?我们认为不一定如此,以下我们将勾勒一种可能满足这些需求的方法;当然,其他方法也可能存在。 这个想法是以用户引导的方式,基于现实信号灵活地调整奖励。例如,奖励函数可以由神经网络定义,该网络将智能体与用户和环境的交互作为输入,并输出标量奖励。这允许奖励以取决于用户目标的方式从环境中选择或组合信号。例如,用户可能指定一个广泛的目标,如"提高我的健康水平",而奖励函数可能返回用户心率、睡眠时长和步数的函数。或者用户可能指定"帮助我学习西班牙语"的目标,奖励函数可以返回用户的西班牙语考试成绩。 此外,用户可以在学习过程中提供反馈,例如他们的满意度,这可用于微调奖励函数。随后,奖励函数可以随着时间调整,以改进其选择或组合信号的方式,并识别和纠正任何不一致。这也可以理解为双层优化过程,将用户反馈作为顶层目标进行优化,并在低层优化来自环境的基于现实的信号。通过这种方式,少量的人类数据可能促进大量的自主学习。 规划与推理 经验时代会改变AI 智能体规划和推理的方式吗?近期,利用能够推理或通过语言"思考"的大语言模型取得了显著进展,这些模型在输出回应前会遵循思维链(chain of thought)[16]。从概念上讲,大语言模型可以作为通用计算机 [30]:它们可以将 token 附加到自己的上下文中,使其能够在输出最终结果前执行任意算法。 在人类数据时代,这些推理方法被明确设计用来模仿人类思维过程。例如,大语言模型被引导生成类人思维链 [16],模仿人类思考的轨迹 [42],或者强化与人类示例相匹配的思考步骤 [18]。推理过程可能会经过微调,以生成与人类专家确定的正确答案相匹配的思考轨迹 [44]。 ...
字节seed:ReTool:LLM中策略性工具使用的强化学习
摘要 虽然通过强化学习(RL)训练的推理模型(如 DeepSeek R1)在文本推理方面表现出色,但它们在需要结构化问题解决的场景中面临困难,例如几何推理、简洁计算或复杂方程求解——这些恰恰是计算工具(如代码解释器 CI)展现出明显优势的领域。为了弥合这一差距,我们提出了 ReTool,它通过工具集成学习增强长篇推理能力,包括两个关键特性:(1) 在自然语言推理过程中动态穿插实时代码执行,以及 (2) 一种自动化的强化学习范式,允许策略在执行过程中进行多轮实时代码执行,并基于结果反馈教导模型学习何时以及如何调用工具。 ReTool 采用系统化的训练框架,首先进行合成冷启动数据生成,产生代码增强的长篇推理轨迹,用于微调基础模型。随后的强化学习训练利用任务结果作为奖励信号,迭代完善模型的工具使用策略,使其能够自主发现最佳工具调用模式,无需人类先验知识。 在具有挑战性的 MATH 奥赛基准 AIME 上的实验证明了 ReTool 的优越性:我们的 32B 模型在 400 个训练步骤中达到了 67% 的准确率,在效率和性能上大幅超越了基于纯文本的强化学习基线(40% 准确率,1080 步骤)。值得注意的是,ReTool-32B 在扩展设置中获得了 72.5% 的准确率,比 OpenAI 的 o1-preview 高出 27.9%。进一步分析揭示了诸如代码自我修正等涌现行为,标志着模型经历了"顿悟时刻",自主掌握了自适应工具使用能力。这些发现凸显了结果驱动的工具集成在推进复杂数学推理方面的巨大潜力,并为混合神经-符号系统提供了新的见解。 引言 在这项工作中,我们采纳强化学习范式,并引入 ReTool,一个工具(Tool)增强的强(Reinforcement)化学习框架,其明确设计旨在引导大语言模型在推理过程中利用外部计算工具达到最优策略。ReTool 包含两个关键组成部分:首先,我们开发了一个数据构建流程,以策划一个高质量的冷启动数据集,该数据集明确演示了何时以及如何调用代码解释器。这教会了模型在工具使用和执行结果分析方面的初步能力。然后,我们应用工具增强的强化学习来训练模型发现最优的工具操作推理策略,并通过基于结果的奖励调整其行为,这超越了仅靠监督学习所能捕捉到的范围。在长链推理过程中,策略模型通过灵活编写代码块并从沙盒式代码解释器获取实时执行结果来辅助后续思考,从而进行展开。 我们在具有挑战性的数学奥林匹克基准 AIME2024 和 AIME2025 上评估 ReTool。基于 Qwen2.5-32B-Instruct 构建,我们的模型仅用 400 个训练步骤就在 AIME2024 上达到了 67.0% 的准确率,显著优于基于文本的强化学习基线,后者用 1080 个训练步骤达到了 40.0% 的准确率。这些显著的提升突出表明,将工具使用显式地建模为决策过程的一部分,不仅突破了模型推理能力的极限,也提高了训练效率。此外,当在 DeepSeek-R1-Distill-Qwen-32B 上训练时,我们的模型展现了进一步的改进,超越了诸如 QwQ-32B-Preview、s1-32B 和 OpenAI o1-preview 等有竞争力的基线。这表明强化学习训练过程激发了更高效的问题解决策略。另外,我们基于 Qwen2.5-32B-Instruct 的冷启动模型在 AIME2024 上达到了 40.9% 的准确率,与基于相同骨干网络的基于文本的强化学习基线(40.0%)相当,并显著超过了未经训练的 Qwen2.5-32B-Instruct(26.7%)。这些结果表明,我们精心策划的数据集有效地捕捉了可执行推理轨迹中的工具使用模式,并且集成代码解释器的训练对推理性能有积极贡献。我们进一步通过强化学习训练对代码解释器的认知行为进行了全面分析,并确定了几个关键发现。我们的模型展示了增强的代码利用能力,使其能够使用更准确和复杂的代码片段;它还学会了适当地调用工具,自适应地选择工具,有效地组织工具调用,并通过涌现的代码自我修正能力迭代地优化推理。 ...
OpenAI 构建智能体指南
https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf 目录 什么是智能体? 4 何时应该构建智能体? 5 智能体设计基础 7 防护机制 24 结论 32 引言 大语言模型(Large Language Models)正变得越来越有能力处理复杂的多步骤任务。在推理、多模态(multi-modality)和工具使用方面的进步,催生了一类新的由大语言模型驱动的系统,称为 AI 智能体(AI Agent)。 本指南专为探索如何构建其首个 AI 智能体的产品和工程团队设计,将来自众多客户部署的见解提炼为实用且可操作的最佳实践。它包括用于识别有前景用例的框架、设计 AI 智能体逻辑和编排的清晰模式,以及确保您的 AI 智能体安全、可预测且有效运行的最佳实践。 阅读本指南后,您将拥有自信地开始构建您的第一个 AI 智能体所需的基础知识。 什么是 AI 智能体? 虽然传统软件能让用户简化和自动化workflows,但 AI 智能体能够代表用户以高度的独立性执行相同的workflows。 AI 智能体是能够代表你独立完成任务的系统。 workflows是为了实现用户目标而必须执行的一系列步骤,无论是解决客户服务问题、预订餐厅、提交代码更改,还是生成报告。 那些集成了大语言模型(LLM)但不使用它们来控制workflows执行的应用程序——例如简单的聊天机器人、单轮大语言模型或情感分类器——不是 AI 智能体。 更具体地说,一个 AI 智能体拥有核心特征,使其能够代表用户可靠且一致地行动: 它利用大语言模型(LLM)来管理workflows执行和做出决策。它能识别workflows何时完成,并能在需要时主动纠正其行为。在失败的情况下,它可以停止执行并将控制权交还给用户。 它能访问各种工具以与外部系统交互——既为了收集上下文信息,也为了采取行动——并根据workflows的当前状态动态选择合适的工具,始终在明确定义的防护措施内操作。 何时应该构建 AI 智能体? 构建 AI 智能体需要重新思考您的系统如何制定决策和处理复杂性。与传统自动化不同,AI 智能体特别适用于传统确定性和基于规则的方法力不从心的workflows。 以支付欺诈分析为例。传统的规则引擎像核对清单一样工作,根据预设标准标记交易。相比之下,大语言模型 AI 智能体更像一位资深调查员,评估上下文,考虑细微模式,并在没有明确违反规则的情况下识别可疑活动。这种细致入微的推理能力正是使 AI 智能体能够有效管理复杂、模糊情况的关键所在。 在评估 AI 智能体可以在哪些方面增加价值时,应优先考虑那些以前难以自动化、特别是传统方法遭遇瓶颈的workflows: 01 复杂的决策制定: 涉及细致判断、例外情况或需结合上下文决策的workflows,例如客户服务workflows中的退款审批。 02 难以维护的规则: 因规则集过于庞大和复杂而变得难以管理,导致更新成本高昂或容易出错的系统,例如执行供应商安全审查。 03 严重依赖非结构化数据: 涉及解释自然语言、从文档中提取含义或与用户进行对话式交互的场景,例如处理房屋保险索赔。 ...
OpenAI研究员姚顺雨:欢迎来到AI的下半场
下半场 摘要: 我们正处于 AI 的中场休息时间。 几十年来,人工智能(AI)在很大程度上是关于开发新的训练方法和模型。这确实奏效了:从在国际象棋和围棋比赛中击败世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到获得 IMO 和 IOI 金牌。在这些载入史册的里程碑背后——深蓝(DeepBlue)、AlphaGo、GPT-4 以及 o 系列——是 AI 方法的根本性创新:搜索、深度强化学习(deep RL)、规模化(scaling)和推理(reasoning)。随着时间的推移,一切都在变得更好。 那么,现在突然有什么不同了呢? 用三个词来说:RL 终于奏效了。更准确地说:RL 终于具备泛化能力了。在经历了几个重大的弯路和一系列里程碑的积累之后,我们终于找到了一个行之有效的秘诀,可以使用语言和推理来解决广泛的 RL 任务。即使在一年前,如果你告诉大多数 AI 研究人员,单一的秘诀就能处理软件工程、创意写作、IMO 级别的数学、鼠标键盘操作以及长篇问答——他们会嘲笑你的“幻觉”。这些任务中的每一项都极其困难,许多研究人员花费整个博士生涯专注于其中的一个狭窄领域。 然而,它确实发生了。 那么接下来会发生什么? AI 的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代,评估变得比训练更重要。我们不再仅仅问:“我们能训练一个模型来解决 X 问题吗?”,而是问:“我们应该训练 AI 做什么,以及我们如何衡量真正的进展?” 要在这个下半场茁壮成长,我们需要及时转变思维模式和技能组合,也许更接近产品经理所具备的那些。 上半场 要理解上半场,看看它的赢家。你认为迄今为止最具影响力的 AI 论文是哪些? 我试了斯坦福 224N 课程里的测验,答案并不令人意外:Transformer、AlexNet、GPT-3 等。这些论文有什么共同点?它们提出了一些根本性的突破来训练更好的模型。而且,它们通过在某些基准测试上展示出一些(显著的)改进而成功发表了论文。 不过,这里有一个潜在的共性:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使是公认最具影响力的基准测试 ImageNet,其引用次数也不到 AlexNet 的三分之一。方法与基准测试的对比在其他地方甚至更为悬殊——例如,Transformer 的主要基准测试是 WMT’14,其研讨会报告约有 1300 次引用,而 Transformer 的引用次数超过 16 万次。 这说明了上半场的游戏规则:专注于构建新的模型和方法,评估和基准测试是次要的(尽管对于让论文体系运作起来是必要的)。 为什么?一个重要原因是,在 AI 的上半场,方法比任务更难、更令人兴奋。从零开始创建一个新的算法或模型架构——想想反向传播算法、卷积网络(AlexNet)或 GPT-3 中使用的 Transformer 等突破——需要非凡的洞察力和工程能力。相比之下,为 AI 定义任务通常感觉更直接:我们只是将人类已经在做的任务(如翻译、图像识别或国际象棋)转化为基准测试。这不需要太多的洞察力,甚至不需要太多的工程。 方法也往往比单个任务更通用、适用范围更广,这使得它们尤为宝贵。例如,Transformer 架构最终推动了计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)以及许多其他领域的进步——远远超出了它首次证明自己的单一数据集(WMT’14 翻译)。一个优秀的新方法可以通过简单和通用性在许多不同的基准测试上取得进展(hillclimb),因此其影响往往超越单个任务。 这个游戏规则已经运行了几十年,激发了改变世界的想法和突破,这些都体现在各个领域不断提高的基准测试性能上。为什么这个游戏规则会改变呢?因为这些想法和突破的积累,在创造一个解决任务的有效秘诀方面,产生了质的飞跃。 ...
白话A2A
暴论:mcp,a2a发展到后面,本质是一回事,现在出现a2a是mcp刚起步,发展很不成熟;且谷歌想要标准制定权。毕竟无论是MCP还是A2A都是人定的标准,当系统复杂起来之后,两者会无限趋同 首先以一个简单的例子说明现在意义下的MCP和A2A 1)MCP (Model Context Protocol) - “工具箱协议” 简单来说:MCP就像是给AI配备了一个标准化的工具箱,让AI知道如何正确使用各种工具。 AI需要查天气时,MCP告诉它:“去这个网址,用这种格式请求,你会得到这种格式的天气数据” AI需要计算时,MCP说:“这个计算器接受这些数字格式,会返回这种结果” 2)A2A (Agent-to-Agent Protocol) - “AI之间的电话标准” 简单来说:A2A是让不同AI之间能够直接对话的标准,像不同国家的人用英语交流。 想象你(用户)需要规划一次旅行。你不必分别问导游AI路线、问天气AI天气、问餐厅AI美食推荐… 有了A2A,你只需告诉一个主AI:“帮我规划巴黎三日游” 然后,旅游AI会自动"打电话"给天气AI获取天气预报,“打电话"给餐厅AI获取美食推荐,“打电话"给地图AI规划最佳路线…最后把完整计划呈现给你。 笔者揣测:【是不是很像强大版的MCP…MCP请求的server可以是一个简单的工具,也可以是app,更可以是AI啊。】 关键区别: MCP:让AI知道如何使用工具(天气API、计算器等) A2A:让AI知道如何与其他AI交谈(不必共享代码、记忆或资源) 接下来开启正文:Google定义的A2A是啥? A2A系统中存在三个大的主体,用户,客户端(client|host),服务器(server,remote agent),各自,以及相互之间交互都定义了一套标准。 客户端: 就是一个主控。用于与 A2A 服务器(Agent)进行交互。负责接收用户请求、制定具体任务,并向远程代理提出需求,任务分发,接收响应。简单来说,就是知道什么Agent有什么能力,实现任务委派(支持异步执行)和结果整合。众所周知,Agent操作一次往往时间很长,因此在任务委派之后还会有个状态管理,时不时看一眼Agent结果返回了没有,要不要舍弃这次任务。既然是Agent,就应该是面向各种场景,流式非流式,传递各种类型的内容(文本、数据、文件),等等这些都需要规定标准。此外,还有维护会话状态和上下文等等脏活累活。从以上描述来看,往深了做,就是一个超级无敌复杂的系统。 服务器:可以简单理解为各类部署好的Agent。各类Agent需要遵循一套结构化模式。 以下简单展示Agent server的标准化定义结构。主要是Agent标准化定义+任务管理(怎么接受,怎么响应,应对流式请求…)。 客户端-服务器之间的交互:最简单就是一个json传来传去,此处采用JSON-RPC 2.0协议。往深了做,又是各种场景的优化。 JSON-RPC 2.0简单语法: --> 发送到服务器的数据 <-- 发送到客户端的数据 使用位置参数的 RPC 调用: --> {"jsonrpc": "2.0", "method": "subtract", "params": [42, 23], "id": 1} <-- {"jsonrpc": "2.0", "result": 19, "id": 1} --> {"jsonrpc": "2.0", "method": "subtract", "params": [23, 42], "id": 2} <-- {"jsonrpc": "2.0", "result": -19, "id": 2} 使用命名参数的 RPC 调用: --> {"jsonrpc": "2.0", "method": "subtract", "params": {"subtrahend": 23, "minuend": 42}, "id": 3} <-- {"jsonrpc": "2.0", "result": 19, "id": 3} --> {"jsonrpc": "2.0", "method": "subtract", "params": {"minuend": 42, "subtrahend": 23}, "id": 4} <-- {"jsonrpc": "2.0", "result": 19, "id": 4} 客户端-服务器之间信息传输的一个例子: 总结:LLM发展到现在,可以开始畅想Agent盛宴了。任何Agent在任何场所调用任何工具,有一个统一的标准会很好,于是有了MCP。任何人想要在任何场所任何环境调用任何Agent,于是又了A2A。但其实无需纠结谁是谁,无需纠结两者有没有重叠。因为在我看来都一样,就是我更好得解决问题的一种方式罢了。统一度量衡注定是有深远价值的。
重新思考预训练中的反思现象
《Rethinking Reflection in Pre-Training》 摘要 语言模型反思其自身推理过程的能力,是其解决复杂问题的关键优势。尽管近期多数研究聚焦于此能力在强化学习阶段如何发展,但我们展示了它实际上在更早的时期——即模型的预训练期间——便已开始显现。为研究此现象,我们故意在思维链中引入错误,并测试模型是否仍能通过识别并纠正这些错误来得出正确答案。通过追踪模型在预训练不同阶段的表现,我们观察到这种自我纠正能力出现较早,并随时间推移而稳步提升。例如,一个基于 4 万亿 Token 预训练的 OLMo-2-7B 模型,在我们设计的六项自我反思任务中展现了自我纠正能力。 引言 反思增强了模型根据先前推理调整其响应的能力,从而提高了其输出的准确性。最近的研究报告称,“诸如反思之类的行为……是模型与强化学习环境互动的结果”。若要将能力的发展归因于此来验证这类主张,则必须在整个训练阶段进行全面的评估。在这项工作中,我们提出了一个详尽的框架来衡量反思,并且我们观察到这种现象在预训练期间持续存在。 使用现有的推理数据集对反思进行基准测试一直具有挑战性。在这类任务中,反思通常是稀疏的,并且每个模型都表现出独特的错误模式,从而产生独特的反思行为表现。我们通过区分情境反思 (situational-reflection) 和自我反思 (self-reflection) 来应对这一挑战。在情境设置中,模型检查由另一个来源(例如不同的前沿模型)创建的推理链。在自我反思中,模型则考虑其自身的推理过程。我们校准模型在被提供一些导致错误答案的干扰性推理时解决任务的能力,并以此在整个预训练过程中衡量反思能力。 \['gsd', 'avdropj'\]”。 通过以编程方式引入错误的思维链 (Chains-of-Thought, CoTs),其特征包含算术扰动和逻辑不一致性等元素,我们可以控制和扩展正确完成这些任务所需的反思程度。这也保持了已建立的 CoT 格式 。此外,我们的算法方法允许通过调整已建立的推理基准,以相对快速和经济的方式创建这些数据集,这反过来又使得对模型在各种领域中的反思能力进行全面研究成为可能。我们的六个数据集,涵盖数学、编码、逻辑推理和知识获取领域,旨在评估情境反思和自我反思能力。 对来自 OLMo-2 模型家族、具有不同预训练计算量的检查点在我们这组六个不同数据集上进行评估的结果表明,反思在各个领域普遍存在。即使是一个简单的触发短语,如“Wait,”,也能使部分预训练的模型持续识别出引入的错误和它们自己产生的错误。具体来说,240 个数据集-检查点对中有 231 个展示了至少一个情境反思的实例,240 个对中有 154 个展示了至少一个自我反思的实例。随着预训练的增加,模型会纠正更多的对抗性示例,导致准确性与 $\log(\text{预训练计算量})$ 之间的平均皮尔逊相关系数在各项任务中达到 0.76。此外,随着预训练的进行,模型越来越多地从不正确的先前推理中恢复,模型生成中明确反思的比率增加,并且明确反思越来越多地有助于从干扰性 CoT 中恢复。 本文的贡献有三方面: 我们引入了一种系统化的方法,用于创建跨越代码、知识获取、逻辑推理和数学领域的六个数据集,以研究模型的反思能力。 我们证明了具有不同能力和训练计算量的预训练模型可以在广泛的领域中使用简单的插入语引发反思,以纠正不准确的先前推理。 我们观察到,持续改进的预训练可以带来更好的反思,从而能够用更少的测试时 Token 来解决相同数量的任务。 方法 定义反思 反思是一种元认知形式,涉及审视信息,评估其背后的推理过程,并基于该评估调整未来的行为。在大型语言模型的背景下,这个过程可以应用于从外部来源引入的信息或模型自身生成的信息。在这项工作中,我们创建了两种情境来引发和衡量反思: 情境反思是指模型反思由其他来源(例如不同的模型)创建的信息。 自我反思是指模型反思其自身生成的输出。 我们还通过两种形式来全面刻画反思: 显式反思 发生在模型生成的 Token 在其含义上识别并处理了对抗性情境中的错误时。显式反思可能出现在正确的模型输出中(换句话说,那些构成对我们对抗性任务的正确答案的输出),也可能出现在不正确的模型输出中。 隐式反思 发生在模型在对抗性情境中设法正确解决任务,但没有输出明确识别先前推理中错误的 Token 时。根据我们的定义,这意味着隐式反思不能导致对我们对抗性任务的错误回答。这使我们能够区分以下两种情况:其一,显式反思缺失但可以推断出发生了隐式反思;其二,根本没有发生任何反思。 使用对抗性反思数据集引发反思 我们提出了一种生成对抗性数据集的算法,该数据集能够引发语言模型的反思行为。该算法创建导致错误解的对抗性思维链 (CoT)。与自我反思(我们可以从模型自身的错误中汲取经验)不同,对于情境反思,我们必须设计人工的对抗性 CoT。从高层次来看,这些对抗性 CoT 是通过破坏正确的 CoT 来创建的,其方式模仿了人类的推理错误,例如逻辑失误和算术计算错误。在这两种情况下,当我们在上下文中提供 CoT 时,模型必须反思这些错误并修正它们,以得出正确的解。我们相信这些设置对于全面研究反思是必要的。 ...
字节Seed:Seed-Thinking-v1.5,超过R1
《Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning》 摘要 我们介绍 Seed-Thinking-v1.5,它能够在响应前通过思考进行推理,从而在广泛的基准测试中提高了性能。Seed-Thinking-v1.5 在 AIME 2024 上达到 86.7 分,在 Codeforces 上达到 55.0 分,在 GPQA 上达到 77.3 分,展示了在 STEM 和编码方面出色的推理能力。除了推理任务,该方法在不同领域也表现出显著的泛化能力。例如,在非推理任务上,它在胜率方面超过 DeepSeek R1 8%,表明其更广泛的适用性。与其他最先进的推理模型相比,Seed-Thinking-v1.5 是一个专家混合模型 (MoE),规模相对较小,具有 200 亿激活参数和 2000 亿总参数。作为我们评估泛化推理能力的一部分,我们开发了两个内部基准测试:BeyondAIME 和 Codeforces,这两个基准测试都将公开发布以支持未来的研究。 1 引言 在这项工作中,我们提出了一个名为 Seed-Thinking-v1.5 的新推理模型。该模型在推理任务和非推理任务中均表现出强大的性能。 数学推理: 在数学竞赛方面,Seed-Thinking-v1.5 在 AIME 2024 上取得了 86.7 分,与 o3-mini-high 的表现持平,并显著优于 o1 和 DeepSeek R1,展现出具有竞争力的实力。由于 AIME 2024 不再能提供足够的区分度,我们构建了一个更具挑战性的评估集,名为 BeyondAIME。BeyondAIME 中的所有问题均由人类专家全新策划设计,旨在最大限度地减少通过记忆或猜测解决问题的可能性。虽然 Seed-Thinking-v1.5 在 BeyondAIME 上的表现超越了 o1 和 R1,但与 o3 和 Gemini pro 2.5 相比,仍存在性能差距。这也进一步证明了这个新评估集的区分能力。 ...