Posts

OpenAI发布一批Agent工具

OpenAI发布了第一批Agent构建模块，旨在帮助开发者和企业构建实用且可靠的 AI 智能体。过去一年，OpenAI推出了一系列新的模型功能，例如高级推理、多模态交互以及最新的安全技术，这些都为OpenAI的模型奠定了基础，使其能够处理构建 AI 智能体所需的复杂、多步骤任务。然而，客户反馈表明，将这些功能转化为可用于生产环境的 AI 智能体极具挑战性，通常需要大量的提示词迭代和自定义编排逻辑，且缺乏足够的可见性或内置支持。为了解决这些难题，OpenAI推出了一套全新的 API 和工具，专门用于简化 AI 智能体应用的开发：全新的 Responses API ，它结合了 Chat Completions API 的简洁性和 Assistants API 的工具使用能力，旨在帮助开发者构建 AI 智能体内置工具，包括网页搜索、文件搜索和计算机使用全新的 Agents SDK ，用于编排单 AI 智能体和多 AI 智能体工作流程集成的可观测性工具，用于追踪和检查 AI 智能体工作流程的执行情况这些新工具简化了核心 AI 智能体逻辑、编排和交互，从而显著降低了开发者构建 AI 智能体的入门门槛。在接下来的几周和几个月里，OpenAI计划发布更多工具和功能，以进一步简化和加速在OpenAI平台上构建 AI 智能体应用。隆重推出 Responses API Responses API 是OpenAI用于构建 AI 智能体的全新 API 原语，它利用 OpenAI 的内置工具，兼具 Chat Completions 的简洁性和 Assistants API 的工具使用能力。随着模型能力的不断发展，OpenAI相信 Responses API 将为开发者构建 AI 智能体应用提供更灵活的基础。通过单个 Responses API 调用，开发者将能够使用多种工具和模型交互来解决日益复杂的任务。 ...

R1-Omni：基于强化学习的可解释全方位多模态情感识别

摘要在这项工作中，我们首次将具有Verifiable Reward 的强化学习 (RLVR) 应用于 Omni-多模态大语言模型，用于情感识别。情感识别是一项视觉和音频模态都起着关键作用的任务。我们利用 RLVR 来优化 Omni 模型，从而显著提高其在三个关键方面的性能：推理能力、情感识别准确性和泛化能力。RLVR 的引入不仅提高了模型在分布内数据上的整体性能，而且在分布外数据集上进行评估时也表现出卓越的鲁棒性。更重要的是，改进的推理能力能够清晰地分析不同模态（特别是视觉和音频信息）在情感识别过程中的贡献。这为多模态大语言模型的优化提供了宝贵的见解。介绍随着 DeepSeek R1 的问世，强化学习 (RL) 的潜力越来越受到从事大语言模型研究人员的关注。DeepSeek R1 引入的一项关键创新是具有可验证奖励的强化学习 (RLVR)，它利用基于规则的奖励机制，以高效且可靠的方式优化模型。即使在训练数据有限的情况下，这种方法在增强大语言模型 (LLM) 的能力方面也表现出了显著的成功。最近的研究已将这种方法扩展到多模态大语言模型 (MLLM)，进一步展示了其多功能性。例如，R1-V 已应用于几何推理和视觉计数等任务，在这些任务中，使用 RLVR 训练的 MLLM 不仅表现出强大的推理能力，而且在领域内测试中实现了与监督微调 (SFT) 相当的性能，同时在分布外 (OOD) 评估中显著优于 SFT 模型。在另一项值得注意的工作中，Visual-RFT 的作者验证了 RLVR 在图像分类和目标检测等经典计算机视觉任务中的有效性。他们的结果表明，RLVR 在几乎所有类别中都始终优于 SFT，突显了其广泛的适用性和稳健性。尽管取得了这些进展，但迄今为止，RLVR 与大语言模型（LLM）的集成主要局限于图像-文本模态。据我们所知，之前的研究尚未探索将 RLVR 应用于基于视频的多模态模型，这些模型整合了更丰富的信息来源，例如音频和动态视觉内容。为了弥合这一差距，我们首次探索了 RLVR 与视频全模态模型的结合，重点关注情感识别任务——在这个领域，视觉和音频模态都为准确的预测提供了关键线索。在这项研究中，我们以 HumanOmni 为基础，这是一个首个为以人为中心的场景理解而设计的开源全模态模型。通过将 RLVR 应用于 HumanOmni，我们旨在研究其在提高情感识别性能方面的潜力。我们的研究结果揭示了几个关键见解：增强的推理能力：R1-Omni 展示了卓越的推理能力，能够更清楚地理解视觉和音频信息如何促进情感识别。改进的理解能力：与 SFT 相比，RLVR 显著提高了情感识别任务的性能。更强的泛化能力：RLVR 模型表现出明显更好的泛化能力，尤其是在分布外场景中表现出色。基于可验证奖励的强化学习 $$ R(q, o) = \begin{cases} 1, & \text{如果 } o = \text{基本真值}, \\ 0, & \text{否则}. \end{cases} $$$$ \max_{\pi_\theta} \mathbb{E}_{o \sim \pi_\theta(q)} \left[ R_{\text{RLVR}}(q, o) \right] $$$$ R_{\text{RLVR}}(q, o) = R(q, o) - \beta \cdot \text{KL}[\pi_\theta(o|q) \| \pi_{\text{ref}}(o|q)]. $$ 这里，$\pi_{\text{ref}}$ 表示优化之前的参考模型，$R(q, o)$ 是可验证的奖励函数，$\beta$ 是一个超参数，用于控制最大化奖励和通过 KL 散度正则化保持与参考模型接近程度之间的权衡。 ...

云端渲染浏览器：Browser-use 详细介绍

项目概述 browser-use 是一个基于 Python 的开源库，旨在简化 AI 代理与浏览器之间的交互。它融合了先进的 AI 技术和浏览器自动化功能，通过集成 Playwright 等浏览器自动化工具，允许开发者使用大型语言模型（LLM）来自动化浏览网页、提取信息和模拟用户操作1, 3。 browser-use 的目标是为开发者提供一个灵活、可扩展的框架，用于构建复杂的网页自动化任务，从而提高网页数据抓取和处理的效率1。它提供了一个强大而简单的接口，使 AI 代理能够访问网站并执行各种任务，例如网页导航、元素定位、表单填写和数据抓取3。 WebVoyager数据集上的表现👆。WebVoyager数据集难度虽高，但存在局限性：主要测试代理规划能力，未覆盖网站核心挑战（如含iframe/Shadow元素的复杂页面）。部分任务存在歧义性（人类也可能有不同解读），但目前仍是最佳可用基准。核心功能详解 browser-use 的核心功能主要围绕浏览器自动化和 AI 集成展开，包括以下几个方面1, 3： AI 融合：将 AI 技术融入到浏览器自动化操作中，允许开发者使用支持 LangChain 的大型语言模型（LLM），如 GPT-4、Claude 等来自动化浏览网页、提取信息、模拟用户操作等1, 3。 Playwright 集成：browser-use 集成了 Playwright，这是一个由微软开发的端到端（E2E）测试工具，用于自动化 Web 浏览器操作。Playwright 支持 Chromium（Chrome、Edge）、Firefox 和 WebKit（Safari）三大浏览器引擎，并适用于跨平台（Windows、macOS、Linux）。通过 Playwright，browser-use 可以实现对浏览器的精确控制，包括页面导航、元素点击、表单填写等1, 3。实际用例：自动化登录网站、模拟用户在网页上的操作流程等。 LangChain 集成：browser-use 还集成了 LangChain，这是一个用于构建大语言模型（LLM）应用的开发框架。LangChain 通过模块化设计简化了 LLM 应用开发流程，支持开发者快速搭建基于语言模型的复杂应用，如聊天机器人、知识库问答和自动化工作流等。通过 LangChain，browser-use 可以实现对网页内容的智能分析和理解，从而更好地指导浏览器自动化任务1, 3。实际用例：使用 LLM 分析网页结构，自动提取关键信息，例如新闻标题、文章内容、产品价格等。多种大语言模型（LLM）支持：browser-use 的 Web UI 扩展支持多种 LLM，包括 Gemini、OpenAI、Azure OpenAI、Anthropic、DeepSeek、Ollama 等1, 3。这使得开发者可以根据自己的需求选择合适的 LLM，从而获得最佳的性能和效果。 ...

Sutton: 苦涩的教训

纵观70年人工智能研究史，我们获得的最重要启示是：那些充分利用计算的通用方法，终将以显著优势成为最有效的解决方案。其根本原因在于摩尔定律，或者说更广义的"单位计算成本持续指数级下降"规律。多数人工智能研究默认可用计算资源恒定（这种情况下利用人类知识成为提升性能的主要途径），但只要将时间跨度拉长到略超典型研究周期，计算能力的数量级增长就变得不可避免。研究者为获得短期可见的改进，往往诉诸领域专业知识，但从长远来看，真正起决定性作用的唯有对计算的极致利用。这两种方法本可并行不悖，但现实往往顾此失彼——任何一方的投入都会挤占另一方的资源，研究者也会形成心理层面的路径依赖。更关键的是，依赖人类知识的方法常使系统复杂化，反而不利于通用计算方法发挥最大效能。人工智能发展史上充满了对这种苦涩教训的迟来认知，审视几个典型案例颇具启发价值。在计算机象棋领域，1997年击败世界冠军卡斯帕罗夫的方法基于海量深度搜索技术。当时，这令大多数致力于利用人类对象棋特殊结构理解的计算机象棋研究者深感挫败。当基于专用软硬件的简单搜索方法展现出碾压性优势时，这些依赖人类知识的象棋研究者难以心服口服。他们辩称"暴力"搜索或许侥幸取胜，但绝非普适性策略，况且完全不同于人类的下棋方式。这些研究者原本期待基于人类经验的方法能获胜，最终却不得不面对现实落差。相似的技术演进在计算机围棋领域重现，只是时间上延后了约二十年。早期研究投入大量精力试图通过人类棋理或围棋特性规避搜索，但当大规模搜索被有效运用后，这些努力不仅徒劳无功，甚至成为技术桎梏。通过自对弈学习训练价值函数的方法同样至关重要（该技术也应用于其他棋类乃至象棋领域，尽管在1997年首次击败人类冠军的程序中学习机制尚未起主要作用）。自对弈学习与广义的机器学习，如同搜索技术一样，能够充分释放海量计算的潜力。搜索与学习构成了人工智能研究中驾驭大规模计算的两大支柱。在计算机围棋领域，如同象棋领域，研究者最初执着于运用人类智慧（以减少搜索需求），直到后期转向拥抱搜索与学习才实现质的飞跃。在语音识别领域，20世纪70年代DARPA曾主办过一场早期竞赛。参赛方案中既有大量利用人类知识的特殊方法——包括词汇知识、音素知识、人类声道结构知识等，也有基于隐马尔可夫模型（HMM）的新型统计方法，后者需要更多计算资源。最终统计方法再次战胜了基于人类知识的方法。这引发了整个自然语言处理领域长达数十年的范式转变，统计与计算逐渐成为主导力量。近年来深度学习在语音识别领域的崛起，正是这一持续趋势的最新注脚。深度学习方法对人类知识的依赖更少，通过海量训练集的学习与更强大的算力，构建出性能飞跃的语音识别系统。与棋类博弈领域相似，研究者总是试图按照自己理解的思维模式构建系统——将既有认知植入系统——但当摩尔定律带来充足算力并找到有效利用方式时，这种努力往往适得其反，造成研究者时间资源的巨大浪费。计算机视觉领域也呈现类似规律。早期方法将视觉视为边缘检测、广义柱体识别或SIFT特征提取的过程。但如今这些方法已被全面摒弃。现代深度学习神经网络仅使用卷积概念与特定不变性原则，却实现了更优越的性能。这个教训足够深刻——作为研究领域，我们仍未完全吸取教训，仍在重复同类错误。要认清并有效抵制这种倾向，必须理解这类错误的内在吸引力。我们必须接受这个苦涩的启示：将人类自认为的思维模式植入系统终将失败。这一教训基于四项历史观察：1）AI研究者常试图将知识植入智能体；2）短期看这确实有效并能满足研究者成就感；3）长期将导致发展停滞甚至阻碍进步；4）突破性进展最终来自通过搜索与学习实现计算规模化的对立方法。这种成功常带有苦涩意味且难以被完全接纳，因为它战胜了备受青睐的人类中心主义方法。苦涩教训的启示之一是通用方法的强大力量——那些能随着计算规模持续扩展的方法，即使可用算力已非常庞大。目前具备无限扩展潜力的两大方法是搜索与学习。第二点启示是心智内容的极端复杂性：我们应停止寻求描述心智内容的简单范式（如空间、物体、多智能体或对称性的简单理解）。这些都属于外部世界任意且本质复杂的组成部分，不应被硬编码到系统中，因其复杂性永无止境；我们应构建能发现并捕捉这种任意复杂性的元方法。这些方法的核心在于寻找优质近似解，但搜索过程应由方法本身而非人类完成。我们需要能像人类一样自主发现的AI智能体，而非固化既有发现的系统。植入已有发现只会阻碍对发现过程的本质理解。

Anthropic：构建有效的Agents

在过去一年中，我们与数十个团队合作，构建了跨行业的大语言模型 (LLM) AI 智能体。我们发现，最成功的案例并非依赖复杂的框架或专门的库，而是采用简单且可组合的模式。在这篇文章中，我们将分享我们与客户合作以及自身构建 AI 智能体的经验，并为开发者提供构建高效 AI 智能体的实用建议。 “Agent”（AI 智能体）可以用几种方式来定义。一些客户将智能体定义为完全自主的系统，这些系统在较长时间内独立运行，并使用各种工具来完成复杂的任务。另一些人则使用该术语来描述更具规范性的实现，这些实现遵循预定义的workflow（工作流程）。在Anthropic，我们将所有这些变体归类为agentic systems（智能体系统），但在架构上对workflows（工作流程）和agents（智能体）进行了重要的区分： Workflows（工作流程）是指大语言模型（LLM）和工具通过预定义的代码路径进行编排的系统。 Agents（智能体）是指大语言模型（LLM）动态地指导其自身流程和工具使用的系统，保持对其如何完成任务的控制。下面，我们将详细探讨这两种类型的智能体系统。在附录1（“实践中的智能体”）中，我们描述了客户发现使用这些系统具有特殊价值的两个领域。在使用大语言模型构建应用程序时，我们建议尽可能采用最简单的解决方案，仅在必要时才增加复杂性。这可能意味着完全不构建 AI 智能体系统。AI 智能体系统通常会牺牲延迟和成本来换取更好的任务性能，因此您应该仔细衡量这种权衡是否值得。当需要更高的复杂性时，对于定义明确的任务，工作流程能够提供可预测性和一致性；而当需要在更大规模上实现灵活性和模型驱动的决策时，AI 智能体则是更优的选择。然而，对于许多应用而言，通过检索和上下文示例来优化单个大语言模型的调用通常就已足够。何时以及如何使用框架？有许多框架可以更轻松地实现 AI 智能体系统，包括： LangChain 的 LangGraph； Amazon Bedrock 的 AI 智能体框架； Rivet，一个拖放式 GUI LLM 工作流程构建器 Vellum，另一个用于构建和测试复杂工作流程的 GUI 工具。这些框架通过简化标准底层任务（如调用 LLM、定义和解析工具以及将调用链接在一起）来简化入门。但是，它们通常会创建额外的抽象层，从而模糊底层提示词和响应，从而使其更难调试。当更简单的设置就足够时，它们也可能使添加复杂性变得很诱人。我们建议开发人员首先直接使用 LLM API：许多模式可以用几行代码实现。如果您确实使用框架，请确保您了解底层代码。关于底层代码的不正确假设是客户错误的常见来源。构建模块、工作流程和 AI 智能体在本节中，我们将探讨我们在生产环境中观察到的 AI 智能体系统的常见模式。我们将从我们的基础构建模块——增强型大语言模型——开始，并逐步增加复杂性，从简单的组合工作流程到自主 AI 智能体。构建模块：增强型大语言模型 Agentic 系统的基本构建模块是一个大语言模型，它通过检索、工具和记忆等增强功能得到加强。我们目前的模型可以主动使用这些能力——生成自己的搜索查询，选择合适的工具，并确定要保留哪些信息。我们建议重点关注实现的两个关键方面：根据您的特定用例定制这些功能，并确保它们为您的大语言模型提供一个简单、有据可查的接口。虽然有很多方法可以实现这些增强功能，但一种方法是通过我们最近发布的Model Context Protocol，该协议允许开发人员通过一个简单的客户端实现与不断增长的第三方工具生态系统集成。在本帖的剩余部分，我们将假设每个大语言模型调用都可以访问这些增强功能。工作流：提示链提示链将一个任务分解成一系列步骤，其中每个大语言模型（LLM）调用处理前一个调用的输出。您可以在任何中间步骤中添加程序化检查（参见下图中的“门控”），以确保该过程仍在正轨上。 ...

Chain of Draft

摘要大语言模型 (LLM) 在解决复杂的推理任务方面表现出了卓越的性能，这得益于诸如思维链 (CoT) 提示等机制，该机制强调冗长、逐步的推理过程。然而，人类通常采用一种更为高效的策略：起草简洁的中间想法，仅捕捉必要的关键信息。在这项工作中，我们提出了一种新颖的范式——Chain of Draft (CoD)，它受到人类认知过程的启发，旨在让大语言模型在解决任务时生成最小化但信息丰富的中间推理输出。通过减少冗余信息并专注于关键见解，CoD 在准确性方面能够与 CoT 相媲美甚至超越 CoT，同时仅消耗 7.6% 的 Token，从而显著降低了各种推理任务的成本和延迟。介绍 OpenAI o1 和 DeepSeek R1 等推理模型的最新进展，已推动大语言模型 (LLM) 借助思维链 (CoT) 等技术，在复杂任务上达到前所未有的性能。这种范式鼓励模型将问题分解为逐步探索的过程，模仿人类的结构化推理方式。尽管这种方法非常有效，但它在推理阶段需要消耗大量的计算资源，导致输出冗长且延迟较高。这种冗长性与人类解决问题的方式形成了鲜明对比：我们通常依赖简洁的草稿或速记笔记来捕捉关键见解，避免不必要的详细阐述。受此差异的启发，我们提出了一种名为 Chain of Draft (CoD) 的新型提示词策略。该策略通过优先考虑效率和极简主义，使模型推理过程更贴近人类的思维模式。与冗长的中间步骤不同，Chain of Draft 鼓励大语言模型在每个步骤中生成简洁且信息密集的输出。这种方法可以在不牺牲准确性的前提下，降低延迟和计算成本，从而使大语言模型更适用于对效率有较高要求的实际应用。草稿链背后的直觉源于人类外化思考的方式。在解决复杂任务时——无论是解决数学问题、撰写文章还是编写代码——我们通常只记录下有助于我们取得进展的关键信息。通过模仿这种行为，大语言模型可以专注于推进解决方案，避免冗长的推理过程带来的额外开销。为了评估草稿链的有效性，我们对各种需要多步骤推理的基准测试进行了实验，包括算术推理、常识推理和符号推理。实验结果表明，与标准的思维链方法相比，这种极简方法在保持甚至提高准确性的同时，显著降低了 Token 消耗量和延迟。本文的贡献主要体现在以下三个方面：我们提出了一种受人类认知过程启发的简洁推理提示策略，即草稿链。我们通过实验验证了草稿链可以在不牺牲准确性的前提下，显著降低延迟和成本。我们探讨了草稿链对大语言模型的设计、部署和实际应用的影响。相关工作最近，涌现出各种推理语言模型，包括 OpenAI 的 o1、阿里巴巴的 QwQ 和 DeepSeek 的 R1，它们在解决复杂任务方面表现出显著的改进。这些模型利用结构化推理方法来增强鲁棒性和问题解决能力。“思维链”（Chain-of-Thought，CoT）推理的概念为大语言模型（LLM）中的推理建立了一种基础方法。在此基础上，出现了更复杂的拓扑结构，如树和图，使大语言模型能够解决日益复杂的问题。其他增强功能包括自洽性 CoT，它结合了验证和反思机制来增强推理可靠性；以及 ReAct，它将工具使用集成到推理过程中，允许大语言模型访问外部资源和知识。这些创新共同扩展了大语言模型在各种应用中的推理能力。虽然结构化推理能够显著提升大语言模型解决复杂问题的能力，但同时也大幅增加了得出最终答案前的 Token 消耗。这使得结构化推理难以应用于对成本和延迟都较为敏感的场景。此外，模型常常缺乏对任务复杂度的感知，即使面对简单任务也容易过度思考，造成不必要的资源浪费。诸如流式传输等技术，旨在通过逐步提供部分输出来降低感知延迟，而非等待生成完整的输出序列。然而，这种方法无法完全缓解整体延迟或计算成本，并且通常不适用于思维链推理，因为中间步骤往往不适合直接呈现给最终用户。 @skeleton_of_thought 提出了 Skeleton-of-Thought (SoT)，这是一种首先引导大语言模型 (LLM) 生成答案的骨架轮廓，然后并行解码以减少延迟的方法。虽然 SoT 有助于降低延迟，但它并没有降低计算成本，并且仅限于可以有效并行化的问题。 @draft_n_verify 采取了不同的方法，它首先通过选择性地跳过中间层，以较低的质量但更高的速度生成草稿 Token，然后在单个前向传递中验证草稿。我们的方法 CoD 可以与这些方法结合使用，以进一步减少延迟。 ...

GPT-4.5

GPT-4.5正式发布，作为"研究预览版"面向OpenAI Pro会员（200美元/月）及持有API密钥的开发者开放。目前定价体系极为高昂：输入Token每百万75美元，输出Token每百万150美元。作为对比，o1模型价格为15/60美元，GPT-4o仅需2.50/10美元。官方公布的胜率对比图表显示，GPT-4.5在不同查询类别中相对GPT-4o的胜率介于56.8%-63.2%：在SimpleQA幻觉率测试中，该模型降至37.1%——较GPT-4o(61.8%)和o3-mini(80.3%)显著优化，但与o1(44%)相比提升有限。编码基准测试成绩与o3-mini基本持平。 OpenAI对模型前景持审慎态度：鉴于GPT-4.5作为超大规模计算密集型模型，其使用成本⁠高于GPT-4o且不具备替代性，我们正在评估是否长期维持其API服务，以平衡现有能力支持与未来模型研发。 Andrej Karpathy指出相较GPT-4训练成本增加10倍的情况下改进幅度有限：每个 0.5 版本号大致对应 10 倍预训练算力。回顾历史：GPT-1 几乎无法生成连贯文本，GPT-2 是个混乱的玩具，GPT-2.5 被直接跳过升级到 GPT-3（后者更加有趣），GPT-3.5 跨越了产品化门槛并引发 OpenAI 的"ChatGPT 时刻"，而 GPT-4 虽感知更好但提升微妙。记得在黑客马拉松中，我们曾费力寻找能体现 GPT-4 明显优于 3.5 的具体提示案例——这类案例确实存在，但明确且具说服力的"完胜"示例却难以寻觅。这种提升如同潮水托起所有船只：措辞更富创意，提示的细微理解更精准，类比更合理，幽默感更佳，冷门领域知识更完善，幻觉频率略降。整体氛围提升约 20%。带着这种预期，我测试了已接触数日的 GPT-4.5（其预训练算力是 GPT-4 的 10 倍），却仿佛重演两年前场景：所有方面都有提升，但这种进步依旧难以具体量化。尽管如此，作为通过简单预训练更大模型就能"免费"获得能力提升的又一次定性测量，这仍令人极度兴奋。需特别说明，GPT-4.5 仅通过预训练、监督微调和 RLHF 训练，尚未成为推理型模型。因此在需要关键推理的领域（数学、编程等），本次发布并未推进模型能力。这些领域仍需基于旧版基础模型（如 GPT-4 级别）进行强化学习训练来培养思维能力。当前该领域标杆仍是完整版 o1 系统。预计 OpenAI 将在 GPT-4.5 基础上继续强化学习训练以提升推理能力。但我们确实预期非重度推理任务会有改进——这些任务更多涉及情商（而非智商），受限于世界知识、创造力、类比能力、综合理解力和幽默感等维度。这正是我在氛围测试中最关注的部分。关于OpenAI GPT-4.5 System Card的部分摘录我们正式发布OpenAI GPT-4.5的研究预览版，这是目前规模最大、知识储备最丰富的模型。该模型基于GPT-4o构建，通过扩展预训练规模，其设计比专注STEM领域推理的模型更具通用性。==我们采用新型监督技术结合监督微调（SFT）和基于人类反馈的强化学习（RLHF）等传统方法进行训练，这些方法与GPT-4o的训练策略相似==。部署前进行的全面安全评估表明，相较于现有模型，其安全风险未见显著增加。初期测试显示，与GPT-4.5的交互更加自然。凭借更广泛的知识库、更强的用户意图对齐能力以及提升的情感智能，该模型在写作、编程和解决实际问题等任务中表现优异，且==产生幻觉的概率更低==。我们以研究预览版形式发布GPT-4.5，旨在深入理解其优势与局限。我们持续探索其能力边界，并期待用户开发出超乎预期的应用场景。本系统说明书遵循OpenAI安全流程和准备框架，详细阐述了GPT-4.5的构建训练过程、能力评估体系与安全强化措施。 2 模型数据与训练推进无监督学习前沿我们通过扩展两大范式提升AI能力：==无监督学习与思维链推理==。扩展思维链推理( Scaling chain-of-thought reasoning)使模型具备"先思考后应答"的能力，可处理复杂STEM问题或逻辑难题。而无监督学习范式的扩展（ scaling unsupervised learning）则能提高世界模型的准确性，降低幻觉率，增强联想思维能力。==GPT-4.5正是我们在无监督学习范式扩展道路上的最新里程碑==。新型对齐技术促进人机协作随着模型规模扩大及其解决问题的广度复杂度提升，增强模型对人类需求与意图的理解变得至关重要。针对GPT-4.5，我们开发了新型可扩展对齐技术，==可利用小模型衍生的数据训练更强大的模型==。这些技术显著提升了GPT-4.5的可控性、细微语义理解能力和自然对话水平。内部测试反馈显示，GPT-4.5具有温润、直觉化的交互特质。面对情感类诉求时，能精准把握提供建议、化解负面情绪或单纯倾听的时机。 ...

Approximating KL Divergence: k1 k2 k3是什么

http://joschu.net/blog/kl-approx.html $$ K L[q, p]=\sum_x q(x) \log \frac{q(x)}{p(x)}=E_{x \sim q}\left[\log \frac{q(x)}{p(x)}\right] $$ 它解释了一个我在各种代码中使用过的技巧，我将 $K L[q, p]$ 近似为 $\frac{1}{2} (\log p(x) - \log q(x))^2$ 的样本平均值，对于来自 $q$ 的样本 $x$，而不是更标准的 $\log \frac{q(x)}{p(x)}$。这篇文章将解释为什么这个表达式是 KL 的一个好的（虽然有偏差的）估计器，以及如何在保持其低方差的同时使其无偏差。我们计算 $KL$ 的选项取决于我们对 $p$ 和 $q$ 有什么样的访问权限。在这里，我们将假设我们可以计算任何 $x$ 的概率（或概率密度）$p(x)$ 和 $q(x)$，但我们无法解析地计算 $x$ 上的总和。为什么我们不能解析地计算它呢？精确计算它需要太多的计算或内存。没有闭合形式的表达式。我们可以通过仅存储对数概率（log-prob）来简化代码，而无需存储整个分布。如果KL散度仅用作诊断工具，这会是一个合理的选择，就像在强化学习中经常出现的情况一样。估计总和或积分的最常见策略是使用蒙特卡洛估计。给定样本 $x_1, x_2, \dots \sim q$，我们如何构建一个好的估计？一个好的估计量是无偏的（它具有正确的均值）并且具有低方差。我们知道一个无偏估计量（在来自 $q$ 的样本下）是 $\log \frac{q(x)}{p(x)}$。然而，它具有高方差，因为它对于一半的样本是负的，而KL散度始终是正的。让我们将这个朴素估计量称为 $k_1 = \log \frac{q(x)}{p(x)} = - \log r$，其中我们定义了比率 $r=\log \frac{p(x)}{q(x)}$，它将在后续计算中频繁出现。 ...

BIG-MATH 25万高质量数学数据集

摘要对推理模型日益增长的兴趣使得数学成为算法和方法改进的重要试验场。然而，现有的开放数学数据集要么包含少量高质量、人工编写的问题，要么包含大量质量不确定的机器生成的问题，迫使研究人员在质量和数量之间做出选择。在这项工作中，我们提出了[Big-Math]，一个包含超过25万个高质量数学问题的数据集，这些问题具有可验证的答案，专门为强化学习（RL）而设计。为了创建[Big-Math]，我们严格地过滤、清理和整理公开可用的数据集，提取满足我们三个要求的问题：（1）具有唯一可验证解决方案的问题，（2）开放式问题，（3）具有封闭式解的问题。为了确保[Big-Math]的质量，我们手动验证过滤过程中的每个步骤，并通过多轮迭代改进我们的过滤器。根据我们的过滤过程的发现，我们引入了47,000个具有验证答案的新问题，[Big-Math-Reformulated]：通过系统的重构算法，将封闭式问题（即多项选择题）重新构造为开放式问题。与最常用的现有开源数学推理数据集GSM8k和MATH相比，[Big-Math]的规模要大一个数量级（250,000个问题，而GSM8k中有8,000个问题，MATH中有12,000个问题），而我们严格的过滤确保我们保持最适合RL的问题。我们还对数据集进行了严格的分析，发现[Big-Math]在问题领域中包含高度的多样性，并包含了广泛的问题难度，从而为不同能力和训练要求的模型提供了广泛的下游用途。总之，这项工作提出了我们的新数据集[Big-Math]，这是最大的适用于RL训练的开放数学问题数据集。通过弥合数据质量和数量之间的差距，[Big-Math]为推进大语言模型（LLM）中的推理奠定了坚实的基础。分析与讨论讨论和分析 [Big-Math] 数据集。我们将考虑数据集的难度、多样性以及我们提出的过滤器的结果。在整个分析过程中，我们将包含讨论要点，以帮助 [Big-Math] 的下游使用。数据集难度我们基于 Llama-3.1-8B 模型的推演 (rollouts) 计算 [Big-Math] 中问题的难度，这为理解问题复杂度提供了一个基准。对于数据集中的每个问题，我们生成 64 个推演，并计算每个问题的成功率。大多数最简单的数据（最高的解决率）来自 Orca-Math、cnk_12 和 MATH 数据集，而最困难的数据则更均匀地分布在各个数据集上。特别是，我们发现几乎所有的 Omni-MATH 和 HARP 都无法被 Llama-3.1-8B 解决。因此，为了在这些困难的子集上对 Llama-3.1-8B 应用强化学习 (RL)，需要对该特定模型进行监督微调，或者使用利用过程奖励模型的 RL 训练算法。例如，具有可验证奖励的强化学习 (RLVR) 不太可能在 Omni-Math 和 HARP 上有效工作，因为模型的响应不会产生训练信号。接下来，我们将问题按难度分为五个等级，最难的等级是成功率低于 20% 的问题，最简单的等级是成功率高于 80% 的问题。我们发现，从最简单到最难，这五个等级分别有 71,926 个 (28.64%)、30,533 个 (12.16%)、25,763 个 (10.26%)、31,249 个 (12.44%) 和 91,647 个问题（占问题总数的 36.50%）。现在一个显而易见的问题是：从业者应该如何将这些数据集难度用于他们自己的目的？一般来说，那些训练能力较弱或较小模型的从业者可能希望删除最困难的问题，因为模型部署不太可能得到正确的答案。这导致学习过程效率低下，因为用于大语言模型的多数强化学习方法（除了那些具有过程奖励模型的方法）如果模型永远无法得出正确答案，将获得 0 信号。另一方面，对于那些训练更大或数学专用模型的从业者来说，他们会发现许多简单的问题是多余的，并且在这些数据上进行训练将是低效的。因此，对于训练强大模型的从业者来说，只保留较难的问题是明智的。假设保留了最难的两个等级的数据，仍然有超过 120,000 个问题，比下一个最接近的适合强化学习的数据集多 10 倍以上。接下来，我们看看我们新颖的 [Big-Math-Reformulated] 子集的难度。我们看到我们的子集遵循与数据集其余部分相似的解决率分布；它在难度分布的低端和高端周围的密度略高。然而，[Big-Math-Reformulated] 偏向于更难的问题。具体来说，我们发现 [Big-Math-Reformulated] 中有 34.44% 位于最难的等级，另外有 16.42% 位于第二难的等级，两者加起来超过了新数据的 50%。最后，我们研究了每个问题领域的解决率分布，如图4所示。我们发现，难度最高的问题集中在微分方程、离散数学和抽象代数领域，而预代数领域则以显著优势成为最简单的领域。有趣的是，其余领域的难度分布非常广泛，表明在每个领域内部，可能存在需要不同专业水平才能解决的问题。令人惊讶的是，线性代数被认为是相对容易的领域之一，而几何学则被认为是难度最高的领域之一。然而，这可能是领域分类过程本身造成的偏差，也可能是 Llama-3.1-8B 的特定训练数据所致。 ...

Claude 关于thinking 模式的思考

有些事情我们几乎可以立即想到，例如“今天星期几？”。而另一些事情则需要耗费更多的脑力，比如解决一个隐晦的填字游戏或调试一段复杂的代码。我们可以根据手头的任务，选择投入或多或少的认知努力。现在，Claude 也具备了同样的灵活性。借助全新的 Claude 3.7 Sonnet，用户可以开启或关闭“扩展思考模式”，从而指示模型更深入地思考那些更为棘手的问题。开发人员甚至可以设置“思考预算”，以便精确控制 Claude 在解决特定问题上所花费的时间。“扩展思考模式”并非切换至采用不同策略的独立模型，而是允许同一模型投入更多时间与精力，以得出最终答案。 Claude 全新的扩展思考能力显著提升了其智能水平。与此同时，这也为那些对 AI 模型的工作原理、评估方法以及安全提升策略感兴趣的人士提出了诸多重要问题。在本文中，我们将分享我们所获得的一些见解。可见的思考过程除了赋予 Claude 更长的思考时间，进而使其能够解答更具挑战性的问题之外，我们还决定以原始形式呈现其思考过程。这具有以下几点益处：信任。能够观察 Claude 的思考方式，可以更容易理解和检查它的答案——并且可能帮助用户获得更优质的输出结果。对齐。在我们之前的一些对齐科学研究中，我们曾利用模型内心真实想法与其表面表达之间的矛盾，来识别它是否可能出现诸如欺骗等不良行为。兴趣。观看 Claude 思考的过程往往引人入胜。我们一些具有数学和物理背景的研究人员注意到，Claude 的思考过程与他们自己解决难题的方式极其相似：探索多种不同的角度和推理路径，并反复验证答案。 ==然而，这种可见的思考过程也存在一些不足==。首先，用户可能会发现，这种公开的思考过程相比 Claude 默认的输出，显得更加客观，缺乏个性化。这是因为我们没有对模型的思考过程进行标准的角色训练。我们希望给予 Claude 最大的自由度，允许它思考任何必要的想法以得出答案——正如人类的思考一样，Claude 有时也会产生一些不准确、具有误导性或不够成熟的想法。许多用户会认为这很有帮助；但也有一些用户可能会对此感到困扰（包括思考过程中缺乏个性的内容）。另一个问题是所谓的“忠实性”——我们无法确定模型在思考过程中所呈现的内容是否真正反映了其内部的运作机制（例如，思考过程中显示的英语词汇可能无法完全解释模型为何会展现出某种特定行为）。确保“忠实性”的问题是我们目前积极研究的领域之一。目前的研究结果表明，模型在做出决策时，往往会基于它们在思考过程中_没有_明确提及的因素。这意味着我们不能仅仅依靠监控当前模型的思考过程，就对其安全性做出有力的判断。此外，这还带来了一些安全隐患。恶意行为者可能会利用这种可见的思考过程，来制定更有效的策略，从而绕过 Claude 的安全机制。更进一步地推测，如果模型在训练过程中得知其内部思考过程会被公开展示，它们可能会被激励去采用不同的、更难以预测的思考方式，甚至有可能会故意隐藏某些想法。对于未来更强大、能力更强的 Claude 版本而言，这些潜在的安全问题将尤为突出——因为一旦这些版本出现偏差，将会带来更大的风险。我们将会仔细权衡在未来版本中公开思考过程的利弊。目前，Claude 3.7 Sonnet 中所展示的思考过程应被视为一项研究预览。 Claude 思考的新测试 Claude 作为 AI 智能体 Claude 3.7 Sonnet 受益于我们称之为“行动扩展”的能力——一种改进的能力，允许它迭代地调用函数，响应环境变化，并持续完成开放式任务。这种任务的一个例子是使用计算机：Claude 可以发出虚拟鼠标点击和键盘按键，代表用户解决任务。与其前身相比，Claude 3.7 Sonnet 可以为计算机使用任务分配更多的轮次——以及更多的时间和计算能力——并且通常能获得更好的结果。我们可以看到 Claude 3.7 Sonnet 在 OSWorld 上的进步，OSWorld 是一项评估多模态 AI 智能体能力的评估。 Claude 3.7 Sonnet 的起点略好一些，但随着模型不断与虚拟计算机交互，性能差异会随着时间的推移而扩大。 ...