AWS 芯片位于德克萨斯州奥斯汀的郊区,坐落着安纳普尔纳实验室,该实验室集办公室、车间甚至迷你“数据中心”于一体,亚马逊网络服务 (AWS) 工程师正在这里设计计算的未来。Annapurna Labs 是亚马逊于 2015 年收购的一家专业微电子公司。与其母公司一样,安纳普尔纳实验室也是在一家家庭车库中起步的,现在发生了很多变化,但斗志昂扬的创业心态仍然存在。该实验室的专业工程师、计算机科学家、运营和物流专家等对开发定制硅芯片和加速器的各个方面都采取实践方法。没有一项工作是太小的,即使是那些需要显微探针的工作。我们将带您了解安纳普尔纳实验室运营的幕后花絮,该团队拥抱创新的“有组织的混乱”。页面概述设计时要考虑整个系统1设计要考虑整个系统2快速迭代、早期失败和快速修复问题3共同设计软件和硬件 4测试以确保最佳性能5构建世界上最强大的人工智能计算系统6预见计算的未来 设计时要考虑到整个系统安纳普尔纳实验室的办公室看起来像一个典型的工作空间,员工在桌面上打字,在会议室里集思广益。这些员工中的许多人处于机器学习加速的第一线,开发为硅芯片提供动力的软件层。它们构成了安纳普尔纳峰秘诀的关键部分——系统优先的思维方式。我们没有构建一个芯片,然后将其集成到系统中并为其编写软件,而是颠覆了这个过程,“首席架构师 Ron Diamant 说。“我们首先设计了整个系统,然后从中逆向工作,以便为该系统指定最佳芯片。这使我们能够为我们试图加速的工作负载创建更加量身定制的芯片。快速迭代,尽早失败,快速修复问题经过一排排隔间是三个不同的实验室,硬件在这里发挥作用。电缆覆盖工作站的工程师使用电动工具构建电路板,并使用专用显微镜来观察微小的芯片组件。当服务器在后台运行时,数十个风扇使设备(和人类)保持凉爽。尽管处于分散状态,但实验室中的一切都有其目的,并提醒我们学习可能会很混乱。当你走进实验室时,你会看到到处都是设备。这是有组织的混乱,“硅工程总监拉米·辛诺 (Rami Sinno) 说。“我们快速迭代,尽早失败,然后修复它。这就是我们能够持续为客户提供非常高性能、低成本产品的原因。Annapurna Labs 的垂直集成流程共同设计软件和硬件,可以控制机器学习加速器服务器所需的整个组件堆栈。软件和硬件工程师在开发的每个阶段都进行协作,从芯片设计到 AWS 数据中心的服务器部署。在开发芯片的同时,我们同时开发软件。我们在测试中使用它们,以确保一切协同工作,并且我们可以进行权衡分析,“软件工程经理 Laura Sharpless 说。“每天我走进办公室,我都会解决一个新问题。也许今天我们正在研究硬件、物理板。明天,我们将研究如何真正扩展软件并真正无缝地支持多代人,以更快地扩展。测试以确保最佳性能Annapurna 的测试和验证流程对于确保组件在 AWS 数据中心 24/7 全天候运行的可靠性和稳健性至关重要。工程师在从芯片到电路板再到服务器的各个级别测试所有软件和硬件组件。该实验室由工程师使用专用设备引入功能、电压和温度等不同变量的站点组成。测试大大缩短了开发时间,因此我们的软件工程师可以更快地迭代,“首席硬件工程师 Prashant Pappu 说,”硬件工程师可以专注于在周期的早期发现问题。构建世界上最强大的 AI 计算系统在收购之前,Annapurna Labs 和 AWS 合作生产下一代硬件 AWS Nitro 及其支持的虚拟机管理程序。仅仅十多年后,Nitro 对于每台 AWS 服务器都至关重要。该技术是 EC2 实例的基础,使 AWS 能够更快地创新,进一步降低客户成本,并提供更高的安全性。加入 AWS 后不久,Annapurna Labs 开始了其第二个产品线 Graviton。Graviton 现已推出第四代,可为客户提供更多计算能力,同时减少碳足迹。Annapurna Labs 的机器学习芯片——Inferentia 和 Trainium——是第三条产品线。它们的名称直接反映了它们的用例。客户使用 Inferentia 大规模运行机器学习推理,使用 Trainium 运行生成式 AI 和计算机视觉等大规模训练工作负载。第二代芯片 Trainium2 是 Annapurna Labs 开发日益强大的 AI 计算系统(如 Trainium2 实例和 UltraServers)的重要组成部分。亚马逊正在投资 1.1 亿美元,支持使用 Trainium 芯片的大学进行人工智能研究Build on Trainium 计划扩大了先进人工智能处理的研究和培训机会,激发了未来前沿模型的创新。UltraServer 将四台 Trainium2 服务器和 64 个 Trainium2 芯片组合到一台服务器中,它们之间的连接非常快,“首席软件工程师 Tobias Edler von Koch 说。“随着机器学习模型变得太大而无法由单个芯片甚至单个机器处理,您需要横向扩展并让多台服务器协作。”安纳普尔纳实验室预见了计算的未来,其隐秘的设置和热切的工程师使其特别适合满足人工智能快速进步竞赛中持续创新的需求。随着下一代芯片的开发,安纳普尔纳峰正在与人工智能初创公司 Anthropic 合作,迎接其迄今为止最雄心勃勃的挑战:构建预计将成为世界上最大的超级计算机的雷尼尔计划。在这个瞬息万变的环境中,代表客户进行创新并与客户密切合作,以确保我们在未来构建正确的东西,真是令人兴奋,“产品和客户工程总监 Gadi Hutt 说。“我的预测是 20 年后的下一次庆祝活动会来得更快,因为我们玩得很开心。”探索 AWS 芯片的复杂世界。










