2025 年 8 月 5 日:本文已更新,以反映 Claude Opus 4.1 的可用性。关键要点Claude 4 混合推理模型让客户可以在近乎即时的响应和更深层次的推理之间进行选择。这些模型可以改变企业为复杂任务和日常大批量运营部署人工智能的方式。这两种模型都旨在为功能更强大、自主的 AI 代理提供支持,以实现跨数千个步骤的多步骤工作流程。Claude Opus 4.1 是 Anthropic 迄今为止最强大的模型,也是编码领域的行业领导者。Amazon Web Services (AWS) 宣布在 Amazon Bedrock 中推出 Claude Opus 4.1 和 Claude Sonnet 4(Anthropic 的最新一代模型)。这些新的混合推理模型(意味着它们可以在近乎即时的响应和扩展思维之间切换)为编码、高级推理和多步骤工作流程设定了新标准。它们能够在复杂、长时间运行的任务上实现持续的性能,并可以为 AI 代理提供支持,这些代理能够在几分钟内完成数小时的工作。将 Claude Opus 4.1 和 Claude Sonnet 4 添加到 Amazon Bedrock 中,利用 Anthropic 最先进的模型扩展了客户的 AI 选择,简化了客户通过企业级安全性和负责任的 AI 控制构建更好、更具变革性的应用程序的方式。为什么你应该关心方法论1.Opus 4.1、Opus 4 和 Sonnet 4 使用带有 bash/编辑器工具的 pass@1 运行(平均超过 10 次试验、单次尝试补丁、无测试时间计算、使用top_p为 0.95 的核采样).2。此处报告的所有分数均使用默认代理框架(“终点 1”),在 5 次试验中平均值。Claude 在 MMMLU 上的分数是 14 种非英语语言的平均分数。Opus 4.1、Opus 4 和 Sonnet 4 在 AIME 上运行,使用top_p为 0.95 的核采样。新的 Claude 4 模型从根本上改变了团队处理复杂项目的方式。对于处理需要持续努力和深厚专业知识的工作的大型企业来说尤其如此。今天推出的 Claude Opus 4.1 是 Opus 4 的直接替代品,可为实际编码和代理任务提供更高的性能和精度。据 Anthropic 称,Claude Opus 4.1 是其迄今为止最智能的模型,也是“编码和代理的行业领导者”。其先进的编码能力包括独立规划和执行复杂的端到端开发任务,同时适应用户的风格,同时保持高质量。该模型还提供了改进的前端代码生成,提供强大的视觉输出质量,重点是有效处理复杂的逻辑。此外,Opus 4.1 的长视野任务处理和复杂的问题解决能力使其成为持续推理和长行动链的理想虚拟协作者。它还增强了人工智能代理的性能,使他们能够以最高的准确性处理复杂的多步骤任务。亚马逊如何帮助推动美国的人工智能未来宾夕法尼亚州能源与创新峰会汇集了亚马逊领导层、政策制定者以及能源和人工智能高管,以提升美国的技术领导地位。Claude Sonnet 4 在编码和推理方面都超越了其前身 (Claude Sonnet 3.7),并为大批量用例提供了性能和成本优化的平衡,使其成为大多数生产应用程序的理想选择。Claude Sonnet 4 可以为从实时客户支持代理到代码审查和错误修复等日常开发任务提供支持,还可以作为特定于任务的子代理同时处理多个任务,例如搜索、数据分析或内容合成。旅游和酒店业的客户可以使用 Claude Sonnet 4 来处理客户请求并近乎实时地提供个性化响应。这两种模型都包括“扩展思维”,它允许 Claude 在两种模式之间切换:深度推理和行动表现。Claude 可以根据需要运行数据分析,提高工作准确性,这有助于它更好地预测和执行后续步骤。认识 AIClaude Opus 4.1 就像一个出色的注重细节的协作者,在代理搜索和研究、内容创建以及记忆和上下文管理方面表现出色,可以实现全面的洞察综合、高质量的内容制作和有效的总结。同时,Claude Sonnet 4 效率很高,为每个项目创造了快速思维和实用智能的完美结合。通过速度和性能的平衡,Claude Sonnet 4 可以在任务之间无缝切换,同时保持务实的方法和坚定不移的承诺,即第一次就把事情做好。AWS 提供 8 种基于游戏的培训体验,以提高您的云技能研究表明,高度交互式、基于游戏的学习可以带来更好的知识成果。Claude“Claude Opus 4 和 Claude Sonnet 4 的 Anthropic 直接从源头上将 AI 从一种工具转变为每个人和每个团队的真正协作者。我们的客户将看到项目时间表缩短——在许多情况下从几周缩短到几小时,“Anthropic 增长和收入主管 Kate Jensen 说。“Claude 4 模型在编码、高级推理和多步骤工作流程方面树立了新标准,同时理解完整的业务环境并提供精确的结果。真正的突破是让你的才能腾出时间从事战略工作,而克劳德则负责繁重的工作。处理数字两种模型都具有 200K 令牌上下文窗口,使客户能够以一致的质量和连贯性处理和生成长内容(例如文档分析和研究)。标记是模型可以处理的文本数据的最小单位(例如,单词、短语或单个字符)。较长的响应对于丰富的代码和内容生成特别有效。据 Anthropic 称,Claude Opus 4.1 将其最先进*的编码性能在 SWE-bench 上提升至 74.5%,提供稳定、深思熟虑的进步,使开发人员及其应用程序始终处于领先地位。与前代产品相比,它能够更专注、更准确地浏览大型代码库,并且通过改进编码代理的规划和编排来擅长长时间运行的任务。除了编码之外,Opus 4.1 还提高了 Claude 的深入研究和数据分析技能,尤其是在细节跟踪和代理搜索方面。这些模型可以在提供快速、直接的答案和循序渐进的思维之间切换,从而在关键行业基准上大幅提高多步骤工作流程的性能。亚马逊新的 Nova Sonic 基础模型不仅能理解你说什么,还能理解你如何说我们的新一代 AI 模型可以理解语气、语调变化和节奏,从而更深入地了解人类对话。更大的故事下一代 Claude 模型代表了代理 AI 功能的重大飞跃,改变了企业将 AI 部署到专业复杂任务和日常大批量作的方式。Claude Opus 4.1 和 Claude Sonnet 4 的功能更像是专家虚拟协作者,而不是简单地生成内容——在复杂的任务中保持专注,保留相关上下文,并在没有持续指导的情况下提供完整的解决方案。这种能力改变了组织应对挑战的方式,从开发软件系统到制定全面的营销策略。对于日常用户来说,这意味着与人工智能合作,人工智能可以更好地了解他们的需求,并可以独立承担项目的更重要部分。即将发生什么?根据 Anthropic 的说法,Claude Opus 4.1 和 Claude Sonnet 4 指向未来,人工智能系统将成为创意和知识工作中越来越有能力的合作伙伴。例如:在组织中担任更专业的角色,例如处理日常分析、跨部门协调,甚至在最少的监督下管理完整的工作流程。






 与 CNBC 的吉姆·克莱默 (Jim Cramer) 的对话.jpg)



