Agent

Sam Altman：悄然降临的奇点

《The Gentle Singularity》我们已经跨过了“事件视界” (event horizon)，技术腾飞的进程已经开启。人类距离建成数字超级智能仅一步之遥，而至少从目前来看，它的发展远比想象中平淡无奇。街上还没有穿梭的机器人，我们大多数人也并未整日与 AI 对话。疾病依然夺走生命，太空旅行依然遥不可及，宇宙的诸多奥秘仍待我们探索。然而，我们最近创造出的系统已在诸多方面超越人类，并能显著提升使用者的产出。这项事业中最艰难的部分——那些催生出 GPT-4 和 o3 等系统的科学洞见——已经攻克。这些来之不易的成果将引领我们走向更远的未来。 AI 将从多方面贡献世界，但其中最巨大的收益，将来自于它推动科学加速进步和生产力提升所带来的生活品质飞跃。未来可以比现在美好得多。科学是推动全面进步的根本动力，一想到我们将拥有的无限可能，就足以令人心潮澎湃。从更宏大的意义上说，ChatGPT 的能力已经超越了历史上任何一位人类。每天，数以亿计的用户依靠它处理日益重要的任务。一个微小的功能更新可能带来巨大的正面效应，同样，一个微小的偏差在数亿用户的规模下，也可能造成极其深远的负面影响。 2025 年，能够胜任真正认知工作的“智能体” (agents) 已经问世，软件编程的方式将被永久改变。到 2026 年，我们或许会迎来能够洞察新知的系统。而到了 2027 年，能够在物理世界中执行任务的机器人或许也将成为现实。未来，将有更多人能够创作软件与艺术。但世界对这两者的需求远未饱和，只要善用新工具，领域专家的表现仍将远超新手。总体而言，一个显著的变化是，到 2030 年，个体的能力将远超 2020 年的水平，而很多人都将找到从中获益的方式。在那些最核心的层面，2030 年代的生活或许并不会发生颠覆性的改变。人们依然会热爱家庭、挥洒创意、享受游戏、在湖中畅游。但在其他同样至关重要的方面，2030 年代将与过往任何时代都截然不同。我们尚不清楚智能的上限能超越人类多少，但答案即将揭晓。进入 2030 年代，智能与能源——也就是思想以及将思想化为现实的能力——将变得唾手可得。长久以来，这两者是限制人类发展的根本瓶颈。一旦拥有了充裕的智能与能源（并辅以良好的治理），理论上，我们便能拥有一切。我们已身处一个拥有惊人数字智能的时代，在最初的震撼过后，大多数人已习以为常。我们心态的转变非常迅速：从惊叹 AI 能写出一段优美的文字，到期待它能创作一部完整的小说；从惊叹它能辅助进行挽救生命的医疗诊断，到期盼它能研发出治愈疾病的良方；从惊叹它能编写一个小型程序，到希望它能创立一家全新的公司。这就是奇点演进的方式：昔日的奇迹变为寻常，再变为最基本的要求 (table stakes)。我们已经从科学家口中得知，AI 使他们的研究效率提升了两到三倍。先进 AI 的意义非凡，但最重要的一点或许在于，我们可以利用它来加速 AI 自身的研究。我们或许能发现全新的计算基底、更优的算法，以及更多未知可能。如果能用一年甚至一个月的时间，完成过去需要十年才能完成的研究，那么进步的速度显然将不可同日而语。从此刻起，我们已有的工具将帮助我们获得更深的科学洞见，并创造出更卓越的 AI 系统。这当然不等同于 AI 系统完全自主地更新代码，但这无疑是“递归式自我完善” (recursive self-improvement) 的雏形。其他的自我强化循环也已开始运转。AI 创造的经济价值，已经启动了为更强大 AI 系统建设基础设施的飞轮效应。而能够制造其他机器人的机器人（某种意义上，也包括能建造其他数据中心的数据中心）也已不再遥远。试想一下，如果我们必须以传统方式造出首批一百万台人形机器人，但此后，它们便能接管从采矿、冶炼、货运到工厂运营的整条供应链，从而制造出更多的机器人，进而建造更多的芯片工厂和数据中心，那么发展的速度无疑将发生质变。随着数据中心生产的自动化，智能的成本最终应会向电力的成本靠拢。（人们常对 ChatGPT 的能耗感到好奇：平均每次查询耗电约 0.34 瓦时，相当于烤箱运行一秒多，或一个高能效灯泡亮几分钟。耗水约 0.000085 加仑，约为一茶匙的十五分之一。）科技进步的步伐将不断加速，而人类几乎能适应任何变化。这个过程必然伴随着阵痛，例如整个工种类别的消失。但另一方面，世界财富的增长速度将如此之快，使我们能够认真考虑过去无法想象的新政策。我们或许不会一蹴而就地建立新的社会契约，但数十年后回望，这些渐进的改变将汇聚成一场巨大的变革。 ...

Claude 4 正式发布！

正式发布新一代 Claude 系列模型：Claude Opus 4 与 Claude Sonnet 4。这两款模型旨在为编程、高级推理及 AI 智能体领域树立全新标杆。 Claude Opus 4 堪称全球顶尖的编程模型，在处理复杂且耗时较长的任务以及智能体工作流方面表现出持续稳定的卓越性能。 Claude Sonnet 4 则是在 Claude Sonnet 3.7 基础上的显著升级，它不仅编程和推理能力更为出色，响应指令也更为精准。除模型本身外，我们同时宣布以下更新：利用工具进行扩展思考（测试版）：两款模型均能在扩展思考过程中调用工具（例如网络搜索），使 Claude 能在推理与工具运用间灵活切换，从而优化输出结果。新增模型功能：两款模型皆可并行使用工具，更精准地遵循指令。此外，在获得开发者授予的本地文件访问权限后，模型将展现大幅提升的记忆能力，能够提取并储存关键信息，确保任务的连贯性，并逐步积累隐性知识。 Claude Code 正式上线：鉴于研究预览版获得了广泛好评，我们进一步拓展了开发者与 Claude 的协作模式。目前， Claude Code 可通过 GitHub Actions 支持后台任务，并已与 VS Code 及 JetBrains 实现原生集成，可直接在用户文件中显示编辑内容，助力无缝结对编程。 API 新增功能：我们在 Anthropic API 上推出了四项新功能，赋能开发者构建更为强大的 AI 智能体。这些功能包括：代码执行工具、 MCP 连接器、 Files API ，以及长达一小时的提示缓存能力。 Claude Opus 4 与 Sonnet 4 均为混合模型，提供两种运行模式：近乎即时的快速响应与用于深度推理的扩展思考模式。 Claude 的 Pro 、 Max 、 Team 及 Enterprise 订阅计划均包含这两款模型及扩展思考功能，同时 Sonnet 4 亦向免费用户开放。这两款模型已登陆 Anthropic API 、 Amazon Bedrock 以及 Google Cloud 的 Vertex AI 平台。其定价策略与前代 Opus 及 Sonnet 模型持平： Opus 4 的输入/输出价格为每百万 tokens $15/$75 ， Sonnet 4 则为 $3/$15 。 ...

上交最新AI Agent协议综述，开发前都看看

《A Survey of AI Agent Protocols》智能体网络生态架构当前人工智能体网络的层级架构可分为:基础智能体网络层、中间协议层以及上层应用层,形成完整的生态系统。发展历程本报告梳理了2019年至今大语言模型、智能体框架、相关协议及典型应用的发展脉络。清晰呈现了技术演进的总体轨迹。目前智能体技术尚处萌芽期,更强大的语言模型和通信协议是突破关键。主流协议纵览报告详细分析了包括MCP、A2A在内的主流智能体协议,涵盖研发机构、应用场景和核心技术等维度。需要指出的是,这些协议大多仍在完善中,部分尚停留在理论构想阶段。协议评估体系研究同时建立了智能体协议的评估框架,指出优秀的协议设计必须兼顾运行效率、系统扩展性和安全性等核心指标,这对构建规模化智能体系统至关重要。应用场景解析报告中的典型案例生动演示了不同协议下的智能体系统架构差异。必须承认,要建立支持大规模、高安全性智能体网络的通信协议体系,我们仍有大量基础性工作亟待完成。

首个移动端智能体，心响

体验一下首个移动端智能体，发现有点东西体验的APP叫做【心响】，目前安卓端上架了，ios端貌似还在审核。尝试让它做个旅游攻略：【五一北京到阿那亚三日游攻略，要求包含详细交通信息，火车买到哪里，火车站到阿那亚怎么去，酒店信息，酒店入住时间，价格，游玩攻略，打卡点，线路规划等等。要求内容越详细越好。】首先进行任务拆解和规划。每一个子任何开始工具调用，之后整理信息。每一步骤都详细展示了信息内容，可以看看是不是自己想要的，及时干预。最终结果展示，把我需要的都考虑进去了，包括行程，交通安排，住宿推荐，美食推荐，实用贴士。都给出方案很详细。最后谈谈智能体：智能体的理想态必然有一部分是直接任务解决，任务必然是复杂的，需要拆解，由多步骤构成，有前因后果，需要调动一些常用软件的API。 LLM是Agent很重要的基础。负责拆解任务，分配任务，收集返回的信息。因此LLM除了基础能力之外，工具调用的能力非常重要。近期发的几个大模型文心X1，Qwen3，GLM Z1基本都增强了该部分能力。 MCP也好，A2A也好，都是庞大中间步骤的一环，中间层的基础架构很重要，复杂系统看架构，这部分看各个厂积淀下来的综合能力。除了基础架构，MCP等协议的另一侧就是成熟APP的参与程度，为什么一些业务广的厂具有天然优势？国内很多App是封闭的，大家都在争夺流量入口，搞留存，导致很多App并不愿开放API。厂内互相配合终究能减少一些因流量争夺引起的摩擦。这也是阿里，百度等厂有一定天然优势的原因。最后的最后，智能体是很考验技术深度和内容深度的东西，链路极长，对各方面依赖也很高。国内大厂出手，大模型这块限定在了国内的大模型，但强在架构，强在产品；小团队出海搞出来的东西，可以用顶级大模型，强在LLM的能力，弱在架构。 Manus也好，心响也好。在产品形态上，都不错。

OpenAI 构建智能体指南

https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf 目录什么是智能体？ 4 何时应该构建智能体？ 5 智能体设计基础 7 防护机制 24 结论 32 引言大语言模型（Large Language Models）正变得越来越有能力处理复杂的多步骤任务。在推理、多模态（multi-modality）和工具使用方面的进步，催生了一类新的由大语言模型驱动的系统，称为 AI 智能体（AI Agent）。本指南专为探索如何构建其首个 AI 智能体的产品和工程团队设计，将来自众多客户部署的见解提炼为实用且可操作的最佳实践。它包括用于识别有前景用例的框架、设计 AI 智能体逻辑和编排的清晰模式，以及确保您的 AI 智能体安全、可预测且有效运行的最佳实践。阅读本指南后，您将拥有自信地开始构建您的第一个 AI 智能体所需的基础知识。什么是 AI 智能体？虽然传统软件能让用户简化和自动化workflows，但 AI 智能体能够代表用户以高度的独立性执行相同的workflows。 AI 智能体是能够代表你独立完成任务的系统。 workflows是为了实现用户目标而必须执行的一系列步骤，无论是解决客户服务问题、预订餐厅、提交代码更改，还是生成报告。那些集成了大语言模型（LLM）但不使用它们来控制workflows执行的应用程序——例如简单的聊天机器人、单轮大语言模型或情感分类器——不是 AI 智能体。更具体地说，一个 AI 智能体拥有核心特征，使其能够代表用户可靠且一致地行动：它利用大语言模型（LLM）来管理workflows执行和做出决策。它能识别workflows何时完成，并能在需要时主动纠正其行为。在失败的情况下，它可以停止执行并将控制权交还给用户。它能访问各种工具以与外部系统交互——既为了收集上下文信息，也为了采取行动——并根据workflows的当前状态动态选择合适的工具，始终在明确定义的防护措施内操作。何时应该构建 AI 智能体？构建 AI 智能体需要重新思考您的系统如何制定决策和处理复杂性。与传统自动化不同，AI 智能体特别适用于传统确定性和基于规则的方法力不从心的workflows。以支付欺诈分析为例。传统的规则引擎像核对清单一样工作，根据预设标准标记交易。相比之下，大语言模型 AI 智能体更像一位资深调查员，评估上下文，考虑细微模式，并在没有明确违反规则的情况下识别可疑活动。这种细致入微的推理能力正是使 AI 智能体能够有效管理复杂、模糊情况的关键所在。在评估 AI 智能体可以在哪些方面增加价值时，应优先考虑那些以前难以自动化、特别是传统方法遭遇瓶颈的workflows： 01 复杂的决策制定：涉及细致判断、例外情况或需结合上下文决策的workflows，例如客户服务workflows中的退款审批。 02 难以维护的规则：因规则集过于庞大和复杂而变得难以管理，导致更新成本高昂或容易出错的系统，例如执行供应商安全审查。 03 严重依赖非结构化数据：涉及解释自然语言、从文档中提取含义或与用户进行对话式交互的场景，例如处理房屋保险索赔。 ...

LangManus：代码库解析|多智能体｜工具调用｜browser use

LangManus 是一个基于 LangGraph 构建的多 Agent 协作系统，通过专业化的角色分工和工作流编排，实现复杂任务的智能处理。系统架构 LangManus 采用了以图为中心的 Agent 协作架构，主要包含以下组件： Agent 层: 多个专业化 Agent（研究员、程序员、浏览器操作员等）工具层: 为各 Agent 提供能力的工具集 LLM 层: 差异化配置的大语言模型协调层: 工作流编排和任务调度 API 层: 面向用户的接口服务核心组件详解 1. Agent 体系 (src/agents/) Agent 层是 LangManus 系统的核心执行单元，由一系列专业化角色组成，每个 Agent 都有明确的职责、工具集和工作模式。系统包含多个专业 Agent，每个 Agent 有特定职责： Coordinator (协调员): 用户交互入口，处理简单问答和任务分发 Planner (规划师): 根据用户需求创建详细执行计划 Supervisor (监督员): 决策下一步由哪个 Agent 执行 Researcher (研究员): 负责搜索和网页抓取信息收集 Coder (程序员): 执行 Python/Bash 代码进行数据处理 Browser (浏览器操作员): 自动化浏览器操作和交互 Reporter (报告员): 生成最终报告 1. Coordinator Agent (协调员) 职责： ...

云端渲染浏览器：Browser-use 详细介绍

项目概述 browser-use 是一个基于 Python 的开源库，旨在简化 AI 代理与浏览器之间的交互。它融合了先进的 AI 技术和浏览器自动化功能，通过集成 Playwright 等浏览器自动化工具，允许开发者使用大型语言模型（LLM）来自动化浏览网页、提取信息和模拟用户操作1, 3。 browser-use 的目标是为开发者提供一个灵活、可扩展的框架，用于构建复杂的网页自动化任务，从而提高网页数据抓取和处理的效率1。它提供了一个强大而简单的接口，使 AI 代理能够访问网站并执行各种任务，例如网页导航、元素定位、表单填写和数据抓取3。 WebVoyager数据集上的表现👆。WebVoyager数据集难度虽高，但存在局限性：主要测试代理规划能力，未覆盖网站核心挑战（如含iframe/Shadow元素的复杂页面）。部分任务存在歧义性（人类也可能有不同解读），但目前仍是最佳可用基准。核心功能详解 browser-use 的核心功能主要围绕浏览器自动化和 AI 集成展开，包括以下几个方面1, 3： AI 融合：将 AI 技术融入到浏览器自动化操作中，允许开发者使用支持 LangChain 的大型语言模型（LLM），如 GPT-4、Claude 等来自动化浏览网页、提取信息、模拟用户操作等1, 3。 Playwright 集成：browser-use 集成了 Playwright，这是一个由微软开发的端到端（E2E）测试工具，用于自动化 Web 浏览器操作。Playwright 支持 Chromium（Chrome、Edge）、Firefox 和 WebKit（Safari）三大浏览器引擎，并适用于跨平台（Windows、macOS、Linux）。通过 Playwright，browser-use 可以实现对浏览器的精确控制，包括页面导航、元素点击、表单填写等1, 3。实际用例：自动化登录网站、模拟用户在网页上的操作流程等。 LangChain 集成：browser-use 还集成了 LangChain，这是一个用于构建大语言模型（LLM）应用的开发框架。LangChain 通过模块化设计简化了 LLM 应用开发流程，支持开发者快速搭建基于语言模型的复杂应用，如聊天机器人、知识库问答和自动化工作流等。通过 LangChain，browser-use 可以实现对网页内容的智能分析和理解，从而更好地指导浏览器自动化任务1, 3。实际用例：使用 LLM 分析网页结构，自动提取关键信息，例如新闻标题、文章内容、产品价格等。多种大语言模型（LLM）支持：browser-use 的 Web UI 扩展支持多种 LLM，包括 Gemini、OpenAI、Azure OpenAI、Anthropic、DeepSeek、Ollama 等1, 3。这使得开发者可以根据自己的需求选择合适的 LLM，从而获得最佳的性能和效果。 ...

Anthropic：构建有效的Agents

在过去一年中，我们与数十个团队合作，构建了跨行业的大语言模型 (LLM) AI 智能体。我们发现，最成功的案例并非依赖复杂的框架或专门的库，而是采用简单且可组合的模式。在这篇文章中，我们将分享我们与客户合作以及自身构建 AI 智能体的经验，并为开发者提供构建高效 AI 智能体的实用建议。 “Agent”（AI 智能体）可以用几种方式来定义。一些客户将智能体定义为完全自主的系统，这些系统在较长时间内独立运行，并使用各种工具来完成复杂的任务。另一些人则使用该术语来描述更具规范性的实现，这些实现遵循预定义的workflow（工作流程）。在Anthropic，我们将所有这些变体归类为agentic systems（智能体系统），但在架构上对workflows（工作流程）和agents（智能体）进行了重要的区分： Workflows（工作流程）是指大语言模型（LLM）和工具通过预定义的代码路径进行编排的系统。 Agents（智能体）是指大语言模型（LLM）动态地指导其自身流程和工具使用的系统，保持对其如何完成任务的控制。下面，我们将详细探讨这两种类型的智能体系统。在附录1（“实践中的智能体”）中，我们描述了客户发现使用这些系统具有特殊价值的两个领域。在使用大语言模型构建应用程序时，我们建议尽可能采用最简单的解决方案，仅在必要时才增加复杂性。这可能意味着完全不构建 AI 智能体系统。AI 智能体系统通常会牺牲延迟和成本来换取更好的任务性能，因此您应该仔细衡量这种权衡是否值得。当需要更高的复杂性时，对于定义明确的任务，工作流程能够提供可预测性和一致性；而当需要在更大规模上实现灵活性和模型驱动的决策时，AI 智能体则是更优的选择。然而，对于许多应用而言，通过检索和上下文示例来优化单个大语言模型的调用通常就已足够。何时以及如何使用框架？有许多框架可以更轻松地实现 AI 智能体系统，包括： LangChain 的 LangGraph； Amazon Bedrock 的 AI 智能体框架； Rivet，一个拖放式 GUI LLM 工作流程构建器 Vellum，另一个用于构建和测试复杂工作流程的 GUI 工具。这些框架通过简化标准底层任务（如调用 LLM、定义和解析工具以及将调用链接在一起）来简化入门。但是，它们通常会创建额外的抽象层，从而模糊底层提示词和响应，从而使其更难调试。当更简单的设置就足够时，它们也可能使添加复杂性变得很诱人。我们建议开发人员首先直接使用 LLM API：许多模式可以用几行代码实现。如果您确实使用框架，请确保您了解底层代码。关于底层代码的不正确假设是客户错误的常见来源。构建模块、工作流程和 AI 智能体在本节中，我们将探讨我们在生产环境中观察到的 AI 智能体系统的常见模式。我们将从我们的基础构建模块——增强型大语言模型——开始，并逐步增加复杂性，从简单的组合工作流程到自主 AI 智能体。构建模块：增强型大语言模型 Agentic 系统的基本构建模块是一个大语言模型，它通过检索、工具和记忆等增强功能得到加强。我们目前的模型可以主动使用这些能力——生成自己的搜索查询，选择合适的工具，并确定要保留哪些信息。我们建议重点关注实现的两个关键方面：根据您的特定用例定制这些功能，并确保它们为您的大语言模型提供一个简单、有据可查的接口。虽然有很多方法可以实现这些增强功能，但一种方法是通过我们最近发布的Model Context Protocol，该协议允许开发人员通过一个简单的客户端实现与不断增长的第三方工具生态系统集成。在本帖的剩余部分，我们将假设每个大语言模型调用都可以访问这些增强功能。工作流：提示链提示链将一个任务分解成一系列步骤，其中每个大语言模型（LLM）调用处理前一个调用的输出。您可以在任何中间步骤中添加程序化检查（参见下图中的“门控”），以确保该过程仍在正轨上。 ...