Amazon SageMaker 文档

注意

概述

Amazon SageMaker 是一项完全托管的服务，可帮助开发人员和数据科学家快速准备、构建、训练和部署机器学习（ML）模型。SageMaker 移除了机器学习过程中各个步骤的繁重工作，让开发高质量模型变得更加轻松。SageMaker 在单个工具集中提供了用于机器学习的所有组件，使您能够以更低的成本、更轻松地将模型快速投入生产。

收集和准备培训数据

Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler 可将汇总和准备机器学习（ML）数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler，您可以简化数据准备和功能工程的过程，并完成数据准备工作流程的每个步骤，包括通过单个可视界面进行数据选择、清理、探查和可视化。使用 SageMaker Data Wrangler 的数据选择工具，您可以从各种数据来源中选择所需的数据，然后即可轻松导入。SageMaker Data Wrangler 包含 300 多种内置数据转换，因此您无需编写任何代码即可快速标准化、转换和组合各种功能。借助 SageMaker Data Wrangler 的可视化模板，您可以在 Amazon SageMaker Studio（一个面向机器学习的完全集成开发环境（IDE））中查看这些转换，从而快速预览并检查这些转换是否按预期完成。当数据准备就绪后，您可以使用 Amazon SageMaker Pipelines 构建全自动的机器学习工作流程，并将其保存在 Amazon SageMaker Feature Store 中以重复使用。

Amazon SageMaker Feature Store

Amazon SageMaker Feature Store 是一个完全托管式的专用存储库，用于存储、检索和共享机器学习（ML）模型特征。

特征是在训练和推理过程中以进行预测的特性或属性。例如，在推荐音乐播放列表的机器学习应用程序中，特征可能包括歌曲评级、收听历史和收听时长。机器学习模型的准确性基于特征的精确集合和组合。通常情况下，训练多个模型的多个团队会重复使用这些特性。无论使用哪种特征集合来训练模型，都需要能够进行实时预测（推理）。在这些不同的访问模式中保持单一的特征源的一致性和最新性是一项挑战，因为大多数组织都保留两个不同的特征库，一个用于训练，一个用于推理。

Amazon SageMaker Feature Store 是一个专用存储库，您可以在其中存储和访问特征，从而更容易命名、组织和跨团队重复使用这些功能。SageMaker Feature Store 为训练和实时推理过程中的特性提供了一个统一的存储库，无需编写额外代码或创建手动程序以保持特性的一致性。SageMaker Feature Store 跟踪存储特性的元数据（例如特性名称或版本号），以便您可以使用交互式查询服务 Amazon Athena 批量或实时查询特性的正确属性。SageMaker Feature Store 还保持功能更新，因为在推断过程中生成新数据时，单个存储库会更新，以便模型在训练和推断过程中使用新特性。

Amazon SageMaker Ground Truth

Amazon SageMaker Ground Truth 是一个数据标注服务，您可以轻松为机器学习创建高质量的训练数据集。通过 SageMaker Ground Truth 控制台，使用自定义或内置数据标注工作流，在几分钟内开始标注数据。这些工作流支持各种用例，包括 3D 点云、视频、图像和文本。作为工作流的一部分，标注人员可以使用辅助标注功能，如自动 3D 长方体捕捉、消除 2D 图像中的失真，以及自动分割工具，以减少标注数据集所需的时间。此外，Ground Truth 还提供了自动数据标注，以使用机器学习模型来标注数据。

Amazon SageMaker Clarify

Amazon SageMaker Clarify 通过帮助识别偏差和解释机器学习预测，为机器学习开发人员提供了对其训练数据和模型的更大可见性。

偏差是不同群体（如年龄或收入阶层）的训练数据或模型预测行为的不平衡。偏差可能来自用于训练模型的数据或算法。例如，如果机器学习模型主要基于中年人的数据进行训练，那么在对年轻人和老年人进行预测时，它可能不太准确。

Amazon SageMaker Clarify 旨在通过检查您指定的属性来检测数据准备期间、模型训练之后以及部署模型中的潜在偏差。例如，您可以在初始数据集或经过训练的模型中检查与年龄相关的偏差，并收到一份详细的报告，该报告量化了不同类型的可能偏差。SageMaker Clarify 还包括功能重要特性图，可帮助您解释模型预测，并生成报告，您可以共享或使用这些报告来识别模型中的问题，您可以采取步骤纠正这些问题。

构建机器学习模型

Amazon SageMaker Studio

Amazon SageMaker Studio 提供了一个基于 web 的可视化界面，您可以在其中执行所有机器学习开发步骤，这可以显著提高数据科学团队的生产力。SageMaker Studio 为您提供了构建、训练和部署模型所需的每个步骤的访问、控制和可见性。您可以快速上传数据、创建新笔记本、训练和调整模型、在步骤之间来回移动以调整实验、比较结果，并将模型部署到生产中，所有这些都在一个地方进行，从而使构建过程更加高效和高效。可以在 SageMaker Studio 中执行的机器学习开发活动包括笔记本、实验管理、自动模型创建、调试以及模型和数据漂移检测。

Amazon SageMaker Autopilot

Amazon SageMaker Autopilot 根据您的数据自动构建、训练和调整最佳机器学习模型，同时允许您保持完全控制和可见性。

构建机器学习模型需要您手动准备特征、测试多个算法，并优化数百个模型参数，以便为您的数据找到最佳模型。然而，这种方法需要深厚的机器学习专业知识。如果您没有这方面的专业知识，您可以使用自动化方法（AutoML），但 AutoML 方法通常对您的特性对模型预测的影响提供很少的可见性。因此，很难重新创建过程或完全理解模型如何进行预测。

Amazon SageMaker Autopilot 减少了构建机器学习模型的繁重负担，并帮助您根据数据自动构建、训练和调整理想机器学习模型。使用 SageMaker Autopilot，您只需提供一个表格数据集并选择要预测的目标列，可以是数字（如房价，称为回归），也可以是类别（如垃圾邮件/非垃圾邮件，称为分类）。SageMaker Autopilot 探索不同的解决方案，以根据您提供的数据找到理想模型。然后，只需单击一次即可直接将模型部署到生产环境中，或者使用 Amazon SageMaker Studio 迭代推荐的解决方案，以进一步提高模型质量。

Amazon SageMaker JumpStart

Amazon SageMaker JumpStart 帮助您快速轻松地开始机器学习。SageMaker JumpStart为许多最常见的用例提供了一套解决方案，只需单击几下即可轻松部署。这些解决方案是可定制的，并展示了 Amazon CloudFormation 模板和参考架构的使用，因此您可以加快您的机器学习旅程。Amazon SageMaker JumpStart 还支持一键部署和微调 150 多种流行的开源模型，如自然语言处理、对象检测和图像分类模型。

训练和调整机器学习模型

Amazon SageMaker Debugger

Amazon SageMaker Debugger 通过实时捕获训练指标包括回归过程中的数据丢失以及在检测到异常时发送警报，从而使优化机器学习模型变得更加轻松。这有助于纠正不准确的模型预测，例如图像的错误识别。SageMaker Debugger 在达到所需的精度水平时停止训练过程，从而减少训练机器学习模型的时间和成本。

Amazon SageMaker Debugger 还可以通过分析和监控系统资源利用率，并在发现资源瓶颈（如 CPU 过度利用）时发送警报，帮助您更快地训练模型。在 Amazon SageMaker Studio 中，您可以在培训期间直观地监控和分析系统资源，包括CPU、GPU、网络和内存，从而不断提高资源利用率。SageMaker Debugger 将系统资源使用情况与培训工作的不同阶段以及培训期间的特定时间点相关联，并就如何调整资源利用率提供建议，以帮助您重新分配资源以最大限度地提高效率。监控和分析可以在包括 PyTorch 和 TensorFlow 在内的主流深度学习框架中工作，而无需在培训脚本中进行任何代码更改。实时监控和分析系统资源，帮助您更快、更大规模地优化机器学习模型。

分布式训练库

Amazon SageMaker 帮助改进大型深度学习模型和数据集的训练过程。通过使用分区算法，SageMaker 的分布式训练库将大型深度学习模型和训练数据集拆分到 Amazon GPU 实例中，所需时间仅为手动操作的一小部分。SageMaker 通过两种技术实现这些效率：数据并行和模型并行。模型并行性在分布到多个 GPU 上进行训练之前，将过大而无法容纳在单个 GPU 上的模型拆分为更小的部分，而数据并行性将大数据集拆分为并行训练，以提高训练速度。

机器学习用例（如图像分类和文本到语音）要求越来越大的计算需求和数据集。例如，2018 年发布的最先进的自然语言处理（NLP）模型BERT使用了 3.4 亿个参数。现在，最先进的 NLP 模型，如 T5、GPT-3、图灵 NLG 和威震天，已经创造了新的精度记录，但需要数百到数千亿个参数。在单个 GPU 实例上训练像 T5 或 GPT-3 这样的模型可能需要几天的时间，这会降低您将最新迭代部署到生产中的能力。此外，手动实现自己的数据和模型并行策略可能需要数周的实验。

只需几行额外的代码，您就可以将数据并行或模型并行添加到 PyTorch 和 TensorFlow 训练脚本中，Amazon SageMaker 将为您应用您选择的方法。SageMaker 通过使用图形分割算法来分割模型，以平衡每个 GPU 的计算，同时最小化 GPU 实例之间的通信。SageMaker 还通过旨在最大化亚马逊云科技计算和网络基础设施的算法帮助优化您的分布式培训工作，以实现接近线性的扩展效率，这使您能够比手动实施更快地完成培训。

部署和管理机器学习模型

Amazon SageMaker Pipelines

Amazon SageMaker Pipelines 是一个专门为机器学习构建的、易于使用的连续集成和连续交付（CI/CD）服务。通过 SageMaker Pipelines，您可以大规模创建、自动化和管理端对端机器学习工作流。

在机器学习过程的每个步骤中协调工作流（例如，探索和准备数据、实验不同的算法和参数、训练和调整模型以及将模型部署到生产中）可能需要数月的编程。

由于是专门为机器学习而构建的，SageMaker Pipelines 帮助您自动化机器学习工作流的不同步骤，包括数据加载、数据转换、培训和调优以及部署。通过 SageMaker Pipelines，您可以共享和重用工作流来重新创建或优化模型，帮助您在整个组织中扩展机器学习。

Amazon SageMaker Model Monitor

Amazon SageMaker Model Monitor 通过检测和警报生产中部署的模型的不准确预测，帮助您维护高质量的机器学习模型。

学习模型模型的准确性可能会随着时间的推移而下降，这种现象称为模型漂移。许多因素会导致模型漂移，例如模型特征的变化。学习模型模型的准确性还可能受到概念漂移、用于训练模型的数据与推理过程中使用的数据之间的差异的影响。

Amazon SageMaker Model Monitor 通过实时检测模型和概念漂移，并向您发送警报，以便您立即采取行动，从而帮助您维护高质量的机器学习模型。通过基于自变量和因变量监测模型的质量来检测模型和概念漂移。自变量（也称为特征）是机器学习模型的输入，因变量是模型的输出。例如，使用机器学习模型预测银行贷款批准，自变量可以是申请人的年龄、收入和信用历史，因变量将是贷款申请的实际结果。此外，SageMaker Model Monitor 监控模型性能特征，如准确度，该准确度衡量正确预测的数量与预测总数的比较，以便您采取行动解决异常。

此外，SageMaker Model Monitor 与 Amazon SageMaker Clarify 集成，通过模型偏差检测帮助您识别 ML 模型中的潜在偏差。

Kubernetes 集成

Kubernetes 是一个开源系统，用于自动化容器化应用程序的部署、扩展和管理。Kubeflow Pipelines 是一个工作流管理器，它提供了一个界面来管理和调度 Kubernetes 集群上的机器学习工作流。使用开源工具提供了灵活性和标准化，但需要时间和精力来建立基础设施，为数据科学家提供笔记本环境，并保持最新的深度学习框架版本。

Amazon SageMaker Operators for Kubernetes 和 Components for Kubeflow Pipelines 支持在机器学习工作流中使用完全管理的 SageMake 机器学习工具，这些工具是从 Kubernete 或 Kubeflo 本地提供的。这消除了手动管理和优化基于 Kubernetes 的机器学习基础设施的需要，同时仍保持对编排和灵活性的控制。

Amazon SageMaker Edge Manager

工业自动化、自动驾驶汽车和自动结账等越来越多的应用需要在边缘设备上运行的机器学习模型，以便在新数据可用时实时进行预测。Amazon SageMaker Neo 是一种为边缘设备优化机器学习模型的简单方法，使您能够在云中训练一次机器学习模型，并在任何设备上运行它们。随着设备的激增，客户可能会有数千个已部署的型号在其车队中运行。Amazon SageMaker Edge Manager 使您能够在智能相机、机器人、个人电脑和移动设备上优化、保护、监控和维护机器学习模型。

Amazon SageMaker Edge Manager 提供了一个在边缘设备上运行的软件代理。该代理附带了一个用 SageMaker Neo 优化的机器学习模型，因此您不需要在设备上安装 Neo 运行时来利用模型优化。代理还收集预测数据，并将数据样本发送到云端进行监控、标记和再培训，这样您就可以在一段时间内保持模型的准确性。所有数据都可以在 SageMaker Edge Manager 仪表板中查看，该仪表板报告部署模型的操作。而且，由于 SageMaker Edge Manager 使您能够独立于应用程序的其他部分管理模型，因此您可以独立更新模型和应用程序，这可以减少代价高昂的停机时间和服务中断。SageMaker Edge Manager 还对您的模型进行加密签名，这样您就可以验证它在从云端移动到边缘设备时没有被篡改。

Amazon SageMaker Neo

Amazon SageMaker Neo 使开发人员能够优化机器学习模型，以便在云端和边缘支持的设备上进行 SageMake 推理。

机器学习推理是使用经过训练的机器学习模型进行预测的过程。在对模型进行高精度训练之后，开发人员通常会花费大量时间和精力来调整模型以获得高性能。对于云中的推理，开发人员通常会以更高的成本转向具有大量内存和强大处理能力的大型实例，以实现更好的吞吐量。对于在计算和内存有限的边缘设备上进行推理，开发人员通常会花费数月的时间手动调整模型，以在设备硬件限制条件下实现可接受的性能。

Amazon SageMaker Neo 优化了机器学习模型，以便在云实例和边缘设备上进行推理，从而在不影响准确性的情况下运行更快。您可以从已经使用 DarkNet、Keras、MXNet、PyTorch、TensorFlow、Tensor Flow Lite、ONNX 或 XGBoost构建的机器学习模型开始，并在 Amazon SageMaker 或其他任何地方进行培训。然后选择目标硬件平台，可以是 SageMaker 托管实例，也可以是基于 Ambarella、Apple、ARM、Intel、MediaTek、Nvidia、NXP、Qualcomm、RockChip、Texas Instruments 或 Xilinx 处理器的边缘设备。只需单击一次，SageMaker Neo 就可以优化经过训练的模型并将其编译为可执行文件。编译器使用机器学习模型来应用性能优化，以优化云实例或边缘设备上模型的性能。然后将模型部署为 SageMaker 端点或支持的边缘设备，并开始进行预测。

对于云中的推理，SageMakerNeo 通过在 SageMaker 托管中创建推理优化容器来加快推理速度并节省成本。对于边缘推理，SageMaker Neo 可以通过为选定的操作系统和处理器硬件调整模型，为开发人员节省数月的手动调整时间。

Amazon SageMaker Neo 使用 Apache TVM 和合作伙伴提供的编译器和加速库来优化给定模型和硬件目标的性能,并根据 Apache 软件许可证为 Apache TVM 项目提供编译器代码，为 Neo AI 开源项目提供运行时代码，以使处理器供应商和设备制造商能够在通用的紧凑运行时上快速创新。

其他信息

有关服务控制、安全特性及功能的其他信息，包括有关存储、检索、修改、限制和删除数据的信息，请参见 https://docs.amazonaws.cn/。以上链接包含的信息不构成光环新网关于亚马逊云科技（北京区域）的客户协议或西云数据关于亚马逊云科技（宁夏区域）的客户协议的“文档”的一部分，也不构成您与光环新网或西云数据之间就您使用亚马逊云科技中国区域服务达成的其他协议的任何部分。