发布于: Oct 20, 2022
还在为高性能机器学习模型训练的高昂成本头疼?基于亚马逊云科技 Trainium 芯片的 Amazon EC2 Trn1 实例来了!Trn1 实例可以为主流机器学习模型在亚马逊云平台上进行深度学习训练提供最佳性能,与基于 GPU 芯片的同类型实例相比,可节省多达 50% 的训练成本。目前,包括 PyTorch, Helixon (华深智药) 和 Money Forward 等客户和合作伙伴已经开始使用 Trn1 实例,下面来看 Trn1 实例有多强大和实用吧!
Trn1 实例正式上线
专为机器学习训练而构建
亚马逊云科技于2022年10月10日正式宣布全面推出由亚马逊云科技 Trainium 芯片提供支持的 Amazon Elastic Compute Cloud(Amazon EC2)Trn1 实例。Trn1 实例专为在云中对机器学习模型进行高性能训练而构建,与基于 GPU 的同类实例相比,可节省高达50%的训练成本。Trn1 实例在亚马逊云科技上为主流机器学习模型提供更快的训练速度,使客户能够减少训练时间,快速进行模型迭代,提高训练准确性,并在自然语言处理、语音和图像识别、语义搜索、推荐引擎、欺诈检测和预测等各种工作负载中提高生产效率。使用 Trn1 实例毋需最低承诺或预付费用,客户只需为使用的计算量付费。
如需开始使用 Trn1 实例,请访问此链接
最少的代码修改
节省训练成本
越来越多的客户正在构建、训练和部署机器学习模型,用于用户创新并改善用户体验。近年来,机器学习模型正变得越来越复杂,并且需要使用海量训练数据帮助提高准确性。有鉴于此,客户必须在数千个芯片加速器上扩展其模型,从而导致了训练成本的增加。这也直接影响了研发团队实验和训练不同模型的能力,从而限制了客户将其创新成果推向市场的速度。亚马逊云科技已经提供了最具深度和广度的机器学习硬件加速器的计算产品,例如由亚马逊云科技 Inferentia 芯片支持的 Inf1 实例、G5 实例、P4d 实例和 DL1 实例。但是,加速计算实例,训练复杂的机器学习模型仍可能需要高昂的训练成本且投入大量训练时间。由亚马逊云科技 Trainium 芯片支持的全新 Trn1 实例可在亚马逊云平台上提供最高性价比和最快的机器学习模型训练,与最新基于 GPU 的 P4d 实例相比,可节省高达 50% 的深度学习模型训练成本。亚马逊云科技推出的 Neuron 软件开发工具包,全面支持 Trn1 实例,客户只需要少量代码修改即可使用,该工具包已经集成到 PyTorch 和 TensorFlow 等主流机器学习框架中。
软硬协同创新,灵活高效
Trn1 实例支持多达 16 个专为训练深度学习模型而构建的 Trainium 加速器。Trn1 实例是首批提供高达 800Gbps 网络带宽的 Amazon EC2 实例(比最新基于 GPU 的 EC2 实例降低了延迟,速度提升了 2 倍),使用亚马逊云科技的第二代 Elastic Fabric Adapter(EFA)网络接口来提高扩展效率。Trn1 实例还使用 NeuronLink(一种高速实例内互连)来加快训练速度。客户将 Trn1 实例部署在由数万个 Trainium 加速器组成的 Amazon EC2 UltraCluster 中,可以快速训练具有数万亿个参数的深度学习模型。借助 EC2 UltraClusters,客户将能够通过与 EFA PB 级网络互连的多达 30,000 个 Trainium 加速器来扩展机器学习模型的训练,从而满足按需获取超级算力的能力,将训练时间从几个月缩短到几天。每个 Trn1 实例支持高达 8TB 的本地 NVMe SSD 存储,能够快速存取大型数据集。Trainium 支持多种数据类型(FP32, TF32, BF16, FP16 和可配置 FP8)和随机舍入这种概率舍入方式。与深度学习训练中常用的传统舍入模式相比,随机舍入的性能和准确性更高。Trainium 还支持动态张量形状(Dynamic Tensor Shape)和自定义算子(Custom Operators),以提供灵活的基础设施,满足客户的训练需求。
专为高性能训练打造
支持多种购买选项
“多年来,我们看到机器学习从大型企业使用的小众技术逐渐发展成为我们许多客户业务的核心部分,我们预计机器学习训练很快就会在他们的计算需求中占据较大的比例,”亚马逊云科技 Amazon EC2 副总裁 David Brown 说到。“基于我们的高性能机器学习芯片 Inferentia 取得的成功,Trainium 是我们专为高性能训练而打造的第二款机器学习芯片。由 Trainium 提供支持的 Trn1 实例将帮助我们的客户把训练时间从几个月缩短到几天,大大提高成本效益。”
Trn1 实例基于亚马逊云科技 Nitro 系统构建,该系统是由亚马逊云科技设计的硬件和软件创新集合,可简化隔离多租户、私有网络和快速本地存储的交付。亚马逊云科技 Nitro 系统将 CPU 虚拟化、存储和网络功能转移到专用硬件和软件中,从而提供与裸机几乎无异的性能。Trn1 实例同时也支持通过其他亚马逊云科技服务提供,包括 Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS) 和 Amazon Batch。Trn1 实例支持多种购买选项,包括按需实例、预留实例、Savings Plan 或竞价实例。Trn1 实例现已在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)上市,并且即将在其他亚马逊云科技地区推出。
有关 Trn1 实例的更多信息,请访问此链接
深受好评的Trn1实例
正成为更多客户的首选
亚马逊的产品搜索引擎索引了数十亿种产品,每天处理数十亿次客户查询,是世界上使用最频繁的服务之一。
“我们正在训练多模态、多语言、多环境的大型语言模型,对多项任务进行预训练,涵盖多项实体(产品、查询、品牌、评测等),以改善客户购物体验,”亚马逊搜索高级首席科学家 Trishul Chilimbi 说到。“与其他加速机器学习解决方案相比,Amazon EC2 Trn1 实例通过提供最佳的性能功耗比提供了一种更可持续的方式来训练大型语言模型,并以最低的成本为我们提供优异性能。我们计划探索新的可配置 FP8 数据类型和硬件加速随机舍入,以进一步提高我们的训练效率和开发速度。”
PyTorch 是一个开源机器学习框架,可加速从研究原型设计到生产部署的路径。
“在 PyTorch,我们希望加快将机器学习从研究原型设计到应用于客户的生产的过程。我们与亚马逊云科技广泛合作,为新的亚马逊云科技 Trainium 驱动的 Trn1 实例提供原生 PyTorch 支持。构建 PyTorch 模型的开发人员只需对 Trn1 实例进行最少的代码更改即可开始训练,”在 PyTorch 担任工程经理负责 Applied AI 的 Geeta Chauhan 表示。“此外,我们还与 OpenXLA 社区合作,使 PyTorch 分布式库能够轻松实现从基于 GPU 的实例到 Trn1 实例的模型迁移。我们对 Trn1 实例为 PyTorch 社区带来的创新激动不已,包括更高效的数据类型、动态形状、自定义算子、优化了硬件的随机舍入和亟需的调试模式。所有这些功能使得 Trn1 非常适合 PyTorch 开发人员广泛采用,我们期待将来能一起推动 PyTorch 的发展,进一步优化训练性能。”
Helixon (华深智药) 为基于蛋白质的疗法构建下一代人工智能解决方案,开发 AI 工具,使科学家能够破译蛋白质功能和相互作用,查询大规模基因组数据集以识别目标,并设计抗体和细胞疗法等疗法。
“今天,我们使用 Fully Sharded Data Parallel 之类的分布式训练库在许多基于 GPU 的服务器上进行并行模型训练,但这仍然需要我们数周时间来训练单个模型,”Helixon (华深智药) 首席执行官彭健说到。“我们很高兴能够利用亚马逊云科技上网络带宽最高的 Amazon EC2 Trn1 实例来提高我们分布式训练任务的性能,减少我们的模型训练时间,同时降低了我们的训练成本。”
Money Forward, Inc. 是一个为企业和个人提供开放和公平的金融平台。
“我们在 Amazon EC2 Inf1 实例上推出了大规模 AI 聊天机器人服务,与基于 GPU 的同类实例相比,我们的推理延迟降低了97%,同时成本也得以下降。由于我们会定期对定制自然语言处理模型进行微调,因此减少模型训练时间和成本也很重要,”Money Forward 首席技术官 Takuya Nakade 说到。“根据我们在 Inf1 实例上成功迁移推理工作负载的经验以及我们在基于亚马逊云科技 Trainium 的 EC2 Trn1 实例上的初步工作,我们预计 Trn1 实例将在提高端到端机器学习性能和成本方面带来更多价值。”
Magic 是一家从事产品和研究的综合性公司,开发就像同事一样的人工智能,提高世界的生产力。
“训练大型基于自回归解码器的模型是我们工作的重要组成部分。亚马逊云科技 Trainium 驱动的 Trn1 实例专为这些工作负载而设计,提供近乎无限的可扩展性、快速节点间联网以及对16位和8位数据类型的高级支持,”Magic 联合创始人兼首席执行官 Eric Steinberger 表示。“Trn1 实例将帮助我们以更低的成本更快地训练大型模型。Trainium 对 BF16 随机舍入提供原生支持,对此我们感到特别兴奋,在性能得以提高的同时,数字准确性也与全精度没什么差别。”