如果你有幸在一个晴朗、阳光明媚的日子来到西雅图,你可能会无意中听到当地人说:“山出来了”。他们指的是雷尼尔山,这是一座高 14,410 英尺(4,392 米)的成层火山,高耸于周围地形之上。雷尼尔的居高临下解释了为什么亚马逊网络服务 (AWS) 借用它的名字来命名一个同样使任何类似努力都相形见绌的项目:创建有望成为世界上最强大的计算机来训练人工智能 (AI) 模型。雷尼尔项目于去年年底宣布,目前正在顺利进行中,是该公司迄今为止最雄心勃勃的事业之一。这是一台巨大的、独一无二的机器,旨在迎来下一代人工智能。该项目分布在美国的多个数据中心,其庞大的规模与 AWS 曾经尝试过的任何项目都不同。堆积如山的计算AWS 客户 AI 安全和研究公司 Anthropic 将使用这个全新的“AI 计算集群”来构建和部署其领先的 AI 模型 Claude 的未来版本。与 Anthropic 目前最大的训练集群相比,Rainier 将提供五倍的计算能力,“Annapurna Labs 的产品和客户工程总监 Gadi Hutt 说,Annapurna Labs 是 AWS 的专业芯片部门,负责设计和构建为该项目提供动力的硬件。对于像 Claude 这样的前沿模型,你投入的计算越多,它就会越智能、越准确,“Hutt 说。“我们正在以前所未有的规模构建计算能力,并且我们正在以前所未有的速度和敏捷性来做到这一点。”芯片芯片芯片为了实现这一使命,雷尼尔项目被设计为一个巨大的“Trainium2 UltraServer 的 EC2 UltraCluster”。第一部分是指 Amazon Elastic Compute Cloud (EC2),这是一项 AWS 服务,允许客户在云中租用虚拟计算机,而不是购买和维护自己的物理服务器。更有趣的是 Trainium2,这是一款专为训练人工智能系统而定制设计的 AWS 计算机芯片。与笔记本电脑或手机中的通用芯片不同,Trainium2 专门用于处理教 AI 模型如何快速完成各种不同且日益复杂的任务所需的大量数据。将 Trainium2 的强大功能放在上下文中:单个芯片每秒能够完成数万亿次计算。如果可以理解的是,这有点难以想象:想想一个人需要 31,700 多年才能数到一万亿。使用 Trainium2 可以在眨眼间完成一项人类需要数千年才能完成的任务。从传统到超令人印象深刻,是的。但雷尼尔计划不仅仅使用一个甚至几个芯片。这就是 UltraServers 和 UltraClusters 的用武之地。传统上,数据中心中的服务器独立运行。如果他们需要共享信息,这些数据必须通过外部网络交换机传输。这会引入延迟(即延迟),这在如此大规模时并不理想。AWS 对这个问题的答案是 UltraServer。UltraServer 是一种新型计算解决方案,它结合了四台物理 Trainium2 服务器,每台服务器都有 16 个 Trainium2 芯片。它们通过称为“NeuronLinks”的专用高速连接进行通信。NeuronLink 可通过其独特的蓝色电缆来识别,就像专用的快速通道,允许数据在系统内更快地移动,并显着加速所有 64 个芯片的复杂计算。当您连接数以万计的 UltraServer 并将它们都指向同一个问题时,您就会得到 Project Rainier — 一个大型“UltraCluster”。这也是你开始理解为什么赫特亲切地称雷尼尔为“友好的巨人”的地方。没有失败的余地组件之间的通信发生在两个关键级别:NeuronLink 在 UltraServer 内提供高带宽连接,而 Elastic Fabric 适配器 (EFA) 网络技术(由其黄色电缆标识)连接数据中心内部和跨数据中心的 UltraServer。这种双层方法在最需要的地方最大限度地提高了速度,同时保持了跨多个数据中心建筑物扩展的灵活性。到目前为止,一切都很好,但作和维护如此庞大的计算机并非没有挑战。为了确保客户可以使用所有这些巨大的容量,可靠性至关重要。这就是该公司的硬件和软件开发方法真正脱颖而出的地方。与大多数其他云提供商不同,AWS 构建自己的硬件,并在此过程中控制技术堆栈的各个方面,从芯片最微小的组件到在其上运行的软件,再到数据中心本身的完整设计。控制堆栈这种垂直集成是 AWS 在加速机器学习和降低成本障碍以使 AI 更易于访问的竞赛中具有如此优势的部分原因之一。当你了解全貌时,从芯片一直到软件,再到服务器本身,那么你就可以在最有意义的地方进行优化,“安纳普尔纳实验室工程总监 Rami Sinno 说。有时,最好的解决方案可能是重新设计向服务器供电的方式,或者重写协调一切的软件。或者它可能同时完成所有这些工作。因为我们在各个层面上都有一切概览,所以我们可以快速排除故障并更快地进行创新。大规模可持续性“从机架布局到配电再到冷却技术,我们数据中心的设计团队正在不断提高能源效率,”Hutt 说。“无论 AWS 的运营规模如何,我们始终将可持续发展目标放在首位。”在数据中心的无碳使用方面,亚马逊运营(包括其数据中心)消耗的所有电力在 2023 年都与 100% 可再生能源相匹配。该公司正在核电和电池存储方面投资数十亿美元,并为世界各地的大型可再生能源项目提供资金,为其运营提供动力。事实上,在过去五年中,亚马逊一直是世界上最大的可再生能源企业购买者。该公司仍走在到 2040 年实现净零碳排放的道路上。随着雷尼尔项目的加入及其在全球范围内的持续增长,这一目标保持不变。去年,AWS 宣布将推出新的数据中心组件,这些组件结合了电源、冷却和硬件方面的进步,不仅适用于其目前正在建设的数据中心,还适用于现有设施。新的数据中心组件预计将减少高达 46% 的机械能耗,并将所用混凝土中的隐含碳减少 35%。该公司正在建设的用于支持雷尼尔项目及其他项目的新站点将包括各种能源效率和可持续性升级。这些将重点关注水资源管理。AWS 对其设施进行设计,使其尽可能少地使用水,并且在可能的情况下根本不使用水。它做到这一点的一种方法是在一年中的大部分时间里取消许多设施的冷却水使用,而是依赖外部空气。例如,印第安纳州圣约瑟夫县的数据中心(雷尼尔项目站点之一)将最大限度地利用外部空气进行冷却。从 10 月到 3 月,数据中心根本不使用任何水进行冷却,而从 4 月到 9 月,他们平均每天只使用冷却水几个小时。得益于这样的工程创新,AWS 在用水效率方面处于行业领先地位。根据劳伦斯伯克利国家实验室最近一份关于数据中心行业用水效率的报告的结果,衡量数据中心内用水效率的行业标准衡量标准是每千瓦时 0.375 升水。AWS 的用水量为每千瓦时 0.15 升,是行业平均水平的两倍多。自 2021 年以来,这一数字也提高了 40%。人工智能的未来Rainier 不仅突破了技术界限,还代表了人工智能可能性的根本转变。其含义远不止使克劳德成为一个无限复杂的模型。雷尼尔项目现在是一个部署原始计算能力的模板,使人工智能能够应对长期以来抵制人类解决方案的挑战,从而实现从医学到气候科学等各个领域的突破。






 与 CNBC 的吉姆·克莱默 (Jim Cramer) 的对话.jpg)



