使用 Amazon Sagemaker 训练
Amazon SageMaker 提供调谐和调试模型、执行训练实验所需的一切工具,让训练机器学习 (ML) 模型变得轻松简单。
功能
实验管理和跟踪
机器学习是基于连续实验的迭代过程,例如尝试新的学习算法或微调算法的超参数,同时观察此类递增变化对模型性能和精确度的影响。数据随着时间推移呈爆炸式增长,于是乎越来越难跟踪最佳表现模型、观察结果、实验过程中的教训以及起初创建这些模型时的成分和配方。
Amazon SageMaker Experiments 可帮助您以轻松、可扩展的方式跟踪、评估和组织训练实验。SageMaker Experiments 是 Amazon SageMaker Studio 和 Python SDK 的附件,采用深度 Jupyter 集成。
使用完整见解分析和调试
获取 ML 训练过程的完整见解和可见性很有挑战性。确保您的模型逐步学习正确的参数值并没有捷径。例如,使用卷积神经网络训练计算机视觉模型时,可能必须运行训练作业达数小时。在此期间,无法看见不同的 ML 模型参数对模型培训有何影响,也不知道培训过程是否会得到所需的结果。
Amazon SageMaker Debugger 提供训练过程的完整可见性。SageMaker Debugger 为开发人员提供了可视界面,可以分析调试数据,而且提供了关于训练过程潜在异常的可视指示器,简化了检查流程。
一键式训练
Amazon SageMaker 的训练模型很简单。准备在 SageMaker 中训练时,只需在 Amazon S3 中指定数据位置,指示所需 SageMaker ML 实例的类型和数量,便可点击开始。SageMaker 会设置分布式计算集群,执行训练,将结果输出至 Amazon S3,完成后拆分集群。
Automatic Model Tuning
Amazon SageMaker 可通过调整算法参数的数千个不同组合自动调谐模型,最大限度地实现模型精确预测。
Managed Spot Training
使用 Managed Spot Training,机器学习模型的训练成本可降低 90% 之多。Managed Spot Training 使用 Amazon EC2 Spot 实例,也就是闲置的 EC2 容量,与 Amazon EC2 按需实例相比大大降低了训练作业成本。Amazon SageMaker 会管理训练作业,使其在计算容量可用时运行。这样可避免您不断轮询容量,而且 Managed Spot Training 也不用构建额外工具来管理中断。Managed Spot Training 可配合自动模型调谐、Amazon SageMaker 内置算法和框架以及自定义算法使用。