发布于: Aug 11, 2020
Amazon SageMaker Operators for Kubernetes 使开发人员和数据科学家能够更轻松地使用 Kubernetes 在 Amazon SageMaker 中训练、调优和部署机器学习 (ML) 模型。
客户使用 Kubernetes(一种通用容器编排系统)来设置可重复的管道,并更好地控制和移植其工作负载。但在 Kubernetes 中运行机器学习工作负载时,客户还必须管理和优化底层机器学习基础设施,确保高可用性和可靠性,提供机器学习工具以提高数据科学家的工作效率,并遵守相应的安全和监管要求。通过 Amazon SageMaker Operators for Kubernetes,客户可以使用 Kubernetes API 或 Kubernetes 工具(如 kubectl)调用 SageMaker,从而在 SageMaker 中创建机器学习作业并与之交互。因此,Kubernetes 客户可以获得 Kubernetes 和 EKS 的可移植性和标准化优势,以及 Amazon SageMaker 提供的完全托管的机器学习服务的优势。
客户可以使用 Amazon SageMaker Operators 进行模型训练、模型超参数优化、实时推理和批量推理。对于模型训练,Kubernetes 客户现在可以利用 SageMaker 中完全托管的机器学习模型训练的所有优势,包括托管 Spot 训练,以节省高达 90% 的成本,以及分布式训练,以通过扩展到多个 GPU 节点来缩短训练时间。计算资源仅在请求时进行预置,根据需要进行扩展,并在作业完成后自动关闭,确保接近 100% 的利用率。对于超参数调优,客户可以使用 SageMaker 的自动模型调优功能,为数据科学家节省几天甚至几周的时间,同时提高模型准确性。客户也可以使用 Spot 实例进行自动模型调优。对于推理,客户可以使用 SageMaker Operators 将 SageMaker 中经过训练的模型部署到分布在多个可用区的完全托管型 auto-scaling 集群,从而提高实时或批量预测的性能和可用性。