Amazon SageMaker Pipelines 是第一个针对机器学习 (ML) 专门构建、易于使用的持续集成和持续交付 (CI/CD) 服务。借助 SageMaker Pipelines,您可以大规模地创建、自动化和管理端到端机器学习工作流。
在机器学习过程的每一步中协调工作流程(例如,探索和准备数据、试验不同的算法和参数、训练和调整模型,以及将模型部署到生产环境中)可能需要几个月的编码。
由于 SageMaker Pipelines 专为机器学习而构建,它可以帮助您自动执行机器学习工作流程的不同步骤,包括数据加载、数据转换、训练和调整以及部署。借助 SageMaker Pipelines,您可以每周构建数十个机器学习模型,并管理海量数据、成千上万的训练实验和数百种不同的模型版本。您可以共享和重复使用工作流来重新创建或优化模型,从而帮助您在整个组织中扩展机器学习。
主要功能
编写、管理和重复使用机器学习工作流
通过 Amazon SageMaker Pipelines,您可以使用简易的 Python SDK 来创建机器学习工作流,然后使用 Amazon SageMaker Studio 来可视化和管理您的工作流。您可以通过存储和重复使用您在 SageMaker Pipelines 中创建的工作流步骤来提高效率和扩展速度。您还可以通过内置的模板快速入门,以构建、测试、注册和部署模型,从而在机器学习环境中快速开始使用 CI/CD。
选择用于部署到生产环境的最佳模型
很多客户有数百个工作流,每个工作流都有同一模型的不同版本。通过SageMaker Pipelines 模型注册表,您可以在中央存储库中跟踪这些版本,其中,您可以根据业务需求轻松选择合适的模型进行部署。您可以使用 SageMaker Studio 来浏览和发现模型,也可以通过 SageMaker Python SDK 来访问模型。
自动跟踪模型
Amazon SageMaker Pipelines 会记录工作流程的每一步,创建模型组件的审计跟踪,诸如训练数据、平台配置、模型参数和学习梯度。审计跟踪可用于重新创建模型和帮助支持合规性要求。