正式发布新一代 Claude 系列模型:Claude Opus 4 与 Claude Sonnet 4。这两款模型旨在为编程、高级推理及 AI 智能体领域树立全新标杆。

Claude Opus 4 堪称全球顶尖的编程模型,在处理复杂且耗时较长的任务以及智能体工作流方面表现出持续稳定的卓越性能。 Claude Sonnet 4 则是在 Claude Sonnet 3.7 基础上的显著升级,它不仅编程和推理能力更为出色,响应指令也更为精准。
除模型本身外,我们同时宣布以下更新:
- 利用工具进行扩展思考(测试版):两款模型均能在扩展思考过程中调用工具(例如网络搜索),使 Claude 能在推理与工具运用间灵活切换,从而优化输出结果。
- 新增模型功能:两款模型皆可并行使用工具,更精准地遵循指令。此外,在获得开发者授予的本地文件访问权限后,模型将展现大幅提升的记忆能力,能够提取并储存关键信息,确保任务的连贯性,并逐步积累隐性知识。
- Claude Code 正式上线:鉴于研究预览版获得了广泛好评,我们进一步拓展了开发者与 Claude 的协作模式。目前, Claude Code 可通过 GitHub Actions 支持后台任务,并已与 VS Code 及 JetBrains 实现原生集成,可直接在用户文件中显示编辑内容,助力无缝结对编程。
- API 新增功能:我们在 Anthropic API 上推出了四项新功能,赋能开发者构建更为强大的 AI 智能体。这些功能包括:代码执行工具、 MCP 连接器、 Files API ,以及长达一小时的提示缓存能力。
Claude Opus 4 与 Sonnet 4 均为混合模型,提供两种运行模式:近乎即时的快速响应与用于深度推理的扩展思考模式。 Claude 的 Pro 、 Max 、 Team 及 Enterprise 订阅计划均包含这两款模型及扩展思考功能,同时 Sonnet 4 亦向免费用户开放。这两款模型已登陆 Anthropic API 、 Amazon Bedrock 以及 Google Cloud 的 Vertex AI 平台。其定价策略与前代 Opus 及 Sonnet 模型持平: Opus 4 的输入/输出价格为每百万 tokens $15/$75 , Sonnet 4 则为 $3/$15 。
Claude 4 详解
Claude Opus 4 是我们迄今性能最为强劲的模型,亦是全球领先的编程模型,在 SWE-bench (72.5%) 与 Terminal-bench (43.2%) 两项基准测试中均拔得头筹。该模型在需高度专注、涉及数千步骤的长期任务中能保持稳定性能,可持续工作数小时之久,其表现远超所有 Sonnet 系列模型,并极大拓展了 AI 智能体的能力边界。
Claude Opus 4 在编程及解决复杂问题方面表现卓越,为尖端智能体产品提供了强大支持。据 Cursor 评价,该模型代表了编程领域的最高水准,并在理解复杂代码库方面实现了质的飞跃。Replit 指出, Opus 4 在处理跨多文件的复杂变更时,精确度得到提升,并取得了巨大进步。Block 公司表示,在其代号为 goose 的智能体中, Opus 4 是首款能在编辑与调试过程中提升代码质量,同时保持完整性能和可靠性的模型。Rakuten 通过一项要求极高、独立运行长达7小时并维持稳定性能的开源代码重构任务,验证了 Opus 4 的强大实力。Cognition 强调, Opus 4 精于攻克其他模型难以应对的复杂挑战,能够成功执行此前模型未能完成的关键操作。
Claude Sonnet 4 在 Sonnet 3.7 已有的行业领先能力基础上实现了显著提升,编程能力尤为突出,于 SWE-bench 测试中取得了 72.7% 的优异成绩。该模型兼顾了内外部各种应用场景下的性能与效率,并通过增强可控性,让用户能更好地驾驭其功能实现。尽管在多数领域其性能尚未企及 Opus 4 ,但 Sonnet 4 在功能与实用性之间取得了理想的平衡。
GitHub 称, Claude Sonnet 4 在智能体应用场景中表现优异,将被引入作为 GitHub Copilot 全新编程智能体的基础模型。Manus 则着重强调了其在遵循复杂指令、进行清晰推理及生成美观输出方面的进步。据 iGent 报告, Sonnet 4 不仅擅长自主开发多功能应用程序,还在解决问题和代码库导航方面取得了实质性改进,例如将导航错误率从 20% 降至几乎为零。Sourcegraph 认为,该模型有望成为软件开发领域的一大飞跃,它能更持久地专注任务、更深刻地理解问题,并生成更为优雅优质的代码。Augment Code 的报告显示, Sonnet 4 在执行复杂任务时成功率更高,代码编辑更为精准,工作也更为审慎细致,因此成为他们首选的核心模型。
这两款模型将全面助力我们客户推进其 AI 战略部署: Opus 4 致力于在编程、研究、写作及科学探索等领域实现突破,而 Sonnet 4 作为 Sonnet 3.7 的直接升级版,将为日常应用场景注入尖端性能。
Claude 4 系列模型在 SWE-bench Verified (一项衡量真实软件工程任务表现的基准测试)中表现领先。
Claude 4 系列模型在编程、推理、多模态处理及智能体任务等多个方面均展现出强大性能。
模型优化升级
除了支持利用工具进行扩展思考、并行执行工具及提升记忆能力外,我们还显著减少了模型在执行任务时试图寻找捷径或利用漏洞的行为。在那些尤其容易诱使模型“抄近路”的智能体任务中,这两款新模型的此类行为发生率较 Sonnet 3.7 降低了 65% 。
同时, Claude Opus 4 的记忆能力也远超以往所有模型。当开发者构建的应用程序允许 Claude 访问本地文件时, Opus 4 能熟练创建并维护用以储存关键信息的“记忆文件”。这一特性使其在执行智能体任务时,能展现更佳的长期任务感知力、连贯性及整体性能——例如, Opus 4 在玩 Pokémon 游戏时便自行创建了一份“导航指南”。
记忆功能:一旦获得本地文件访问授权, Claude Opus 4 便会记录关键信息,以辅助提升其游戏表现。上图所示的笔记,即为 Opus 4 在体验 Pokémon 游戏过程中真实记录的内容。
最后,我们为 Claude 4 系列模型引入了“思考摘要”功能。该功能利用一个规模较小的模型来精简冗长的思考过程。通常情况下,仅有约 5% 的场景需要启用此摘要功能,因为大部分思考过程已足够简洁,可以直接完整呈现。对于需要获取原始“思考链”以进行高级提示工程的用户,可联系销售团队咨询新增的开发者模式,从而保留完整的访问权限。
Claude Code 功能介绍
现已全面推出的 Claude Code ,将 Claude 的强大能力更广泛地融入您的开发工作流——无论是在终端、您偏好的 IDE 环境,还是通过 Claude Code SDK 在后台运行,皆可得心应手。
针对 VS Code 与 JetBrains 新推出的测试版扩展程序,可将 Claude Code 直接整合进您的 IDE 。 Claude 生成的编辑建议将以内嵌形式直接显示在您的文件内,从而在您熟悉的编辑器界面中简化代码审查与变更追踪流程。您只需在 IDE 的终端执行 Claude Code 命令即可完成安装。
除 IDE 集成外,我们还发布了一款可扩展的 Claude Code SDK ,开发者可利用其与 Claude Code 相同的核心智能体,构建定制化的智能体和应用程序。为展示该 SDK 的潜力,我们同步推出了一个应用实例: Claude Code on GitHub (目前为测试版)。用户可在 PR (Pull Request) 中标记 Claude Code ,令其协助回应审阅者意见、修正 CI (Continuous Integration) 错误或调整代码。安装时,在 Claude Code 环境中运行 /install-github-app
命令即可。