简单来说,数据中心需要三件事才能正常工作。第一种是建筑物,可以保护服务器免受雨、雪甚至风滚草的侵害。第二个是电力,这是保持所有这些服务器运行的动力。三是降温。没有这个元素,这些服务器可能会在几分钟内过热并关闭。这也是 Amazon Web Services (AWS) 以及整个数据中心行业正在从空中解决方案过渡到液体解决方案的阶段。一位 AWS 技术人员带我们参观了俄勒冈州东部的一个数据中心——看看里面是什么样子Fidel Contreras 是 AWS 的数据中心技术主管。跟随他和他的同事参观数据中心,了解在那里工作的感觉。这种转变发生在 AWS 产品组合的各个部分,这很重要,因为数据中心实际上需要第四件事:发展能力。去年,AWS 宣布将推出新的数据中心组件,旨在支持下一代人工智能创新和客户不断变化的需求。从空气冷却到液体冷却的转变在这种适应中起着至关重要的作用。临界点在深入研究之前,值得注意的是,虽然“冷却”可能暗示您在家中或办公室享受的空调类型,但数据中心冷却却有所不同。我们称之为冷却,但我们的目标并不是一个舒适的 68 度数据大厅。我们的目标是通过我们的服务器输送足够的空气以防止它们过热,并使用最少的能源和水来做到这一点,“AWS 数据中心冷却系统高级经理 Dave Klusas 说。“在夏季,这实际上意味着我们的数据大厅非常温暖。”到目前为止,空中系统一直在 AWS 的数据中心内完成这项工作。在高层次上,这是将空气吸入内部并在服务器机架中循环的问题。空气在传播时从电子设备中吸走热量,然后随着更多的冷空气进入进行相同的行程而再次被送出室外。但现在,仅靠空气并不总是足够的。借助当今的 AI 芯片,某些工作负载(例如训练大型语言模型)受益于在尽可能小的物理空间中将尽可能多的芯片分组。这样做可以减少通信延迟,从而提高性能,从而降低成本和能耗。每个人工智能芯片每秒执行数万亿次数学计算。为此,它们比其他类型的芯片消耗更多的功率,并且在此过程中会产生更多的热量。反过来,这需要更多的气流来去除热量。事实上,气流如此之大,以至于仅使用空气冷却芯片既不切实际也不经济。跟随我们进入 AWS 设计定制芯片的实验室Annapurna Labs 独特的创新方法突破了计算机软件和硬件开发的极限。“我们已经跨过了一个门槛,即使用液体冷却来提取热量变得更加经济,”Klusas 说。打开水龙头液体冷却比空气冷却方法更复杂,但由于液体的密度是空气的 900 多倍,因此它可以吸收更多的热量。这也是为什么在闷热的天气里在海滩上畅游比微风更清爽的原因。Klusas 的团队考虑了多种可以从供应商处购买的液体冷却解决方案,但发现没有一种解决方案适合 AWS 的需求。这使他们走上了设计和交付完全定制系统的道路。AWS 正在采取直接针对芯片的方法,即直接在芯片顶部放置一个“冷板”。液体在管中流过密封板,吸收热量并将其带出服务器机架。从那里,它运行到一个排热系统,该系统冷却液体(一种专门为此目的设计的流体),然后将其循环回冷板。这是一个完全“闭环”的系统,这意味着液体不断再循环,而且至关重要的是,不会增加数据中心的用水量。与风冷系统一样,目的是使用足够的液体来防止服务器过热,并且使用最少的额外能量来做到这一点。这意味着液体通常处于“热水浴缸”温度。速度和灵活性AWS 从白板设计到原型仅用了四个月,然后用了 11 个月的时间交付了第一台投入生产的设备。这包括开发设计、构建供应链、编写控制软件、测试所有内容和制造系统的时间。灵活性至关重要,因为在构建数据中心所需的时间内,波动的市场需求和技术进步可能会改变如何平衡液体与空气冷却的想法。AWS 的设计旨在适应不断变化的需求。“我们设计的液体冷却系统是为了方便地将它们添加到需要它们的数据中心,但避免在不需要它们的地方添加它们的费用,”Klusas 说。冷却系统的另一个关键要素是 AWS 开发的定制冷却液分配装置,它比现成的竞争对手更强大、更高效。“我们专门为满足我们的需求而发明了它,”克鲁萨斯说。“通过专门关注我们的问题,我们能够优化成本更低、效率更高、产能更高。”推出Klusas 的团队在 AWS 的研发中心开发了该系统的第一个示例,该公司在该实验室测试进入其数据中心的任何东西。然后,它在生产数据中心部署了测试单元。现在,该系统已准备好大规模使用。今年夏天,它将加大力度,以承担越来越多的冷却工作负载,并开始转移到其他数据中心。深入了解 AWS 实验室,退役的数据中心硬件获得第二次机会AWS 的逆向物流计划为组件提供了一条可持续的路径,同时保持最高级别的数据安全性。随着时间的推移,它如何以及在哪里接手这项工作将取决于,但克鲁萨斯对该系统适应快速发展的未来的能力充满信心。“我们创建了一个非常节能和成本效益的系统,”他说,“并且可以精确地部署在需要液体冷却的地方,以满足客户的需求。










