本页面中描述的服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国区域的亚马逊云科技服务入门页面。中国区域的亚马逊云科技服务入门页面中,仅关于特定服务的“区域可用性”和“功能可用性和实现差异”的部分(但不包括其通过超链接援引的内容)构成您与光环新网或西云数据之间就您使用亚马逊云科技中国(北京)区域或亚马逊云科技中国(宁夏)区域服务达成的协议(“协议”)项下的“文档”的一部分,而该入门页面的其他内容不构成“协议”的任何部分。

Amazon SageMaker 文档

Amazon SageMaker是一项完全托管的服务,可帮助开发人员和数据科学家快速准备、构建、训练和部署机器学习(ML)模型。SageMaker移除了机器学习过程中各个步骤的繁重工作,让开发高质量模型变得更加轻松。SageMaker在单个工具集中提供了用于机器学习的所有组件,使您能够以更低的成本、更轻松地将模型快速投入生产。  

收集和准备培训数据 

Amazon SageMaker Data Wrangler 

Amazon SageMaker Data Wrangler可将汇总和准备机器学习(ML)数据所需的时间从数周缩短至几分钟。借助SageMaker Data Wrangler,您可以简化数据准备和功能工程的过程,并完成数据准备工作流程的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。使用SageMaker Data Wrangler的数据选择工具,您可以从各种数据来源中选择所需的数据,然后即可轻松导入。SageMaker Data Wrangler包含300多种内置数据转换,因此您无需编写任何代码即可快速标准化、转换和组合各种功能。借助SageMaker Data Wrangler 的可视化模板,您可以在Amazon SageMaker Studio(一个面向机器学习的完全集成开发环境(IDE))中查看这些转换,从而快速预览并检查这些转换是否按预期完成。当数据准备就绪后,您可以使用Amazon SageMaker Pipelines构建全自动的机器学习工作流程,并将其保存在Amazon SageMaker Feature Store中以重复使用。      

Amazon SageMaker Feature Store 

Amazon SageMaker Feature Store是一个完全托管式的专用存储库,用于存储、检索和共享机器学习(ML)模型特征。  

特征是在训练和推理过程中以进行预测的特性或属性。例如,在推荐音乐播放列表的机器学习应用程序中,特征可能包括歌曲评级、收听历史和收听时长。机器学习模型的准确性基于特征的精确集合和组合。通常情况下,训练多个模型的多个团队会重复使用这些特性。无论使用哪种特征集合来训练模型,都需要能够进行实时预测(推理)。在这些不同的访问模式中保持单一的特征源的一致性和最新性是一项挑战,因为大多数组织都保留两个不同的特征库,一个用于训练,一个用于推理。      

Amazon SageMaker Feature Store是一个专用存储库,您可以在其中存储和访问特征,从而更容易命名、组织和跨团队重复使用这些功能。SageMaker Feature Store为训练和实时推理过程中的特性提供了一个统一的存储库,无需编写额外代码或创建手动程序以保持特性的一致性。SageMaker Feature Store跟踪存储特性的元数据(例如特性名称或版本号),以便您可以使用交互式查询服务Amazon Athena批量或实时查询特性的正确属性。SageMaker Feature Store还保持功能更新,因为在推断过程中生成新数据时,单个存储库会更新,以便模型在训练和推断过程中使用新特性。     

Amazon SageMaker Ground Truth 

Amazon SageMaker Ground Truth是一个数据标注服务,您可以轻松为机器学习创建高质量的训练数据集。通过SageMaker Ground Truth控制台,使用自定义或内置数据标注工作流,在几分钟内开始标注数据。这些工作流支持各种用例,包括3D点云、视频、图像和文本。作为工作流的一部分,标注人员可以使用辅助标注功能,如自动3D长方体捕捉、消除2D图像中的失真,以及自动分割工具,以减少标注数据集所需的时间。此外,Ground Truth还提供了自动数据标注,以使用机器学习模型来标注数据。    

Amazon SageMaker Clarify 

Amazon SageMaker Clarify通过帮助识别偏差和解释机器学习预测,为机器学习开发人员提供了对其训练数据和模型的更大可见性。 

偏差是不同群体(如年龄或收入阶层)的训练数据或模型预测行为的不平衡。偏差可能来自用于训练模型的数据或算法。例如,如果机器学习模型主要基于中年人的数据进行训练,那么在对年轻人和老年人进行预测时,它可能不太准确。    

Amazon SageMaker Clarify旨在通过检查您指定的属性来检测数据准备期间、模型训练之后以及部署模型中的潜在偏差。例如,您可以在初始数据集或经过训练的模型中检查与年龄相关的偏差,并收到一份详细的报告,该报告量化了不同类型的可能偏差。SageMaker Clarify还包括功能重要特性图,可帮助您解释模型预测,并生成报告,您可以共享或使用这些报告来识别模型中的问题,您可以采取步骤纠正这些问题。  

构建机器学习模型 

Amazon SageMaker Studio 

Amazon SageMaker Studio提供了一个基于web的可视化界面,您可以在其中执行所有机器学习开发步骤,这可以显著提高数据科学团队的生产力。SageMaker Studio为您提供了构建、训练和部署模型所需的每个步骤的访问、控制和可见性。您可以快速上传数据、创建新笔记本、训练和调整模型、在步骤之间来回移动以调整实验、比较结果,并将模型部署到生产中,所有这些都在一个地方进行,从而使构建过程更加高效和高效。可以在SageMaker Studio中执行的机器学习开发活动包括笔记本、实验管理、自动模型创建、调试以及模型和数据漂移检测。     

Amazon SageMaker Autopilot 

Amazon SageMaker Autopilot根据您的数据自动构建、训练和调整最佳机器学习模型,同时允许您保持完全控制和可见性。   

构建机器学习模型需要您手动准备特征、测试多个算法,并优化数百个模型参数,以便为您的数据找到最佳模型。然而,这种方法需要深厚的机器学习专业知识。如果您没有这方面的专业知识,您可以使用自动化方法(AutoML),但AutoML方法通常对您的特性对模型预测的影响提供很少的可见性。因此,很难重新创建过程或完全理解模型如何进行预测。    

Amazon SageMaker Autopilot减少了构建机器学习模型的繁重负担,并帮助您根据数据自动构建、训练和调整理想机器学习模型。使用SageMaker Autopilot,您只需提供一个表格数据集并选择要预测的目标列,可以是数字(如房价,称为回归),也可以是类别(如垃圾邮件/非垃圾邮件,称为分类)。SageMaker Autopilot探索不同的解决方案,以根据您提供的数据找到理想模型。然后,只需单击一次即可直接将模型部署到生产环境中,或者使用Amazon SageMaker Studio迭代推荐的解决方案,以进一步提高模型质量。   

Amazon SageMaker JumpStart 

Amazon SageMaker JumpStart帮助您快速轻松地开始机器学习。SageMaker JumpStart为许多最常见的用例提供了一套解决方案,只需单击几下即可轻松部署。这些解决方案是可定制的,并展示了Amazon CloudFormation模板和参考架构的使用,因此您可以加快您的机器学习旅程。Amazon SageMaker JumpStart还支持一键部署和微调150多种流行的开源模型,如自然语言处理、对象检测和图像分类模型。     

训练和调整机器学习模型 

Amazon SageMaker Debugger 

Amazon SageMaker Debugger通过实时捕获训练指标包括回归过程中的数据丢失以及在检测到异常时发送警报,从而使优化机器学习模型变得更加轻松。这有助于纠正不准确的模型预测,例如图像的错误识别。SageMaker Debugger在达到所需的精度水平时停止训练过程,从而减少训练机器学习模型的时间和成本。   

Amazon SageMaker Debugger还可以通过分析和监控系统资源利用率,并在发现资源瓶颈(如CPU过度利用)时发送警报,帮助您更快地训练模型。在Amazon SageMaker Studio中,您可以在培训期间直观地监控和分析系统资源,包括CPU、GPU、网络和内存,从而不断提高资源利用率。SageMaker Debugger将系统资源使用情况与培训工作的不同阶段以及培训期间的特定时间点相关联,并就如何调整资源利用率提供建议,以帮助您重新分配资源以最大限度地提高效率。监控和分析可以在包括PyTorch和TensorFlow在内的主流深度学习框架中工作,而无需在培训脚本中进行任何代码更改。实时监控和分析系统资源,帮助您更快、更大规模地优化机器学习模型。      

分布式训练库 

Amazon SageMaker帮助改进大型深度学习模型和数据集的训练过程。通过使用分区算法,SageMaker的分布式训练库将大型深度学习模型和训练数据集拆分到Amazon GPU实例中,所需时间仅为手动操作的一小部分。SageMaker通过两种技术实现这些效率:数据并行和模型并行。模型并行性在分布到多个GPU上进行训练之前,将过大而无法容纳在单个GPU上的模型拆分为更小的部分,而数据并行性将大数据集拆分为并行训练,以提高训练速度。     

机器学习用例(如图像分类和文本到语音)要求越来越大的计算需求和数据集。例如,2018年发布的最先进的自然语言处理(NLP)模型BERT使用了3.4亿个参数。现在,最先进的NLP模型,如T5、GPT-3、图灵NLG和威震天,已经创造了新的精度记录,但需要数百到数千亿个参数。在单个GPU实例上训练像T5或GPT-3这样的模型可能需要几天的时间,这会降低您将最新迭代部署到生产中的能力。此外,手动实现自己的数据和模型并行策略可能需要数周的实验。     

只需几行额外的代码,您就可以将数据并行或模型并行添加到PyTorch和TensorFlow训练脚本中,Amazon SageMaker将为您应用您选择的方法。SageMaker通过使用图形分割算法来分割模型,以平衡每个GPU的计算,同时最小化GPU实例之间的通信。SageMaker还通过旨在最大化亚马逊云科技计算和网络基础设施的算法帮助优化您的分布式培训工作,以实现接近线性的扩展效率,这使您能够比手动实施更快地完成培训。     

部署和管理机器学习模型  

Amazon SageMaker Pipelines 

Amazon SageMaker Pipelines是一个专门为机器学习构建的、易于使用的连续集成和连续交付(CI/CD)服务。通过SageMaker Pipelines,您可以大规模创建、自动化和管理端对端机器学习工作流。  

在机器学习过程的每个步骤中协调工作流(例如,探索和准备数据、实验不同的算法和参数、训练和调整模型以及将模型部署到生产中)可能需要数月的编程。   

由于是专门为机器学习而构建的,SageMaker Pipelines帮助您自动化机器学习工作流的不同步骤,包括数据加载、数据转换、培训和调优以及部署。通过SageMaker Pipelines,您可以共享和重用工作流来重新创建或优化模型,帮助您在整个组织中扩展机器学习。  

Amazon SageMaker Model Monitor 

Amazon SageMaker Model Monitor通过检测和警报生产中部署的模型的不准确预测,帮助您维护高质量的机器学习模型。   

学习模型模型的准确性可能会随着时间的推移而下降,这种现象称为模型漂移。许多因素会导致模型漂移,例如模型特征的变化。学习模型模型的准确性还可能受到概念漂移、用于训练模型的数据与推理过程中使用的数据之间的差异的影响。  

Amazon SageMaker Model Monitor通过实时检测模型和概念漂移,并向您发送警报,以便您立即采取行动,从而帮助您维护高质量的机器学习模型。通过基于自变量和因变量监测模型的质量来检测模型和概念漂移。自变量(也称为特征)是机器学习模型的输入,因变量是模型的输出。例如,使用机器学习模型预测银行贷款批准,自变量可以是申请人的年龄、收入和信用历史,因变量将是贷款申请的实际结果。此外,SageMaker Model Monitor监控模型性能特征,如准确度,该准确度衡量正确预测的数量与预测总数的比较,以便您采取行动解决异常。        

此外,SageMaker Model Monitor与Amazon SageMaker Clarify集成,通过模型偏差检测帮助您识别ML模型中的潜在偏差。

Kubernetes集成 

Kubernetes是一个开源系统,用于自动化容器化应用程序的部署、扩展和管理。Kubeflow Pipelines是一个工作流管理器,它提供了一个界面来管理和调度Kubernetes集群上的机器学习工作流。使用开源工具提供了灵活性和标准化,但需要时间和精力来建立基础设施,为数据科学家提供笔记本环境,并保持最新的深度学习框架版本。    

Amazon SageMaker Operators for Kubernetes和Components for Kubeflow Pipelines支持在机器学习工作流中使用完全管理的SageMake机器学习工具,这些工具是从Kubernete或Kubeflo本地提供的。这消除了手动管理和优化基于Kubernetes的机器学习基础设施的需要,同时仍保持对编排和灵活性的控制。  

Amazon SageMaker Edge Manager 

工业自动化、自动驾驶汽车和自动结账等越来越多的应用需要在边缘设备上运行的机器学习模型,以便在新数据可用时实时进行预测。Amazon SageMaker Neo是一种为边缘设备优化机器学习模型的简单方法,使您能够在云中训练一次机器学习模型,并在任何设备上运行它们。随着设备的激增,客户可能会有数千个已部署的型号在其车队中运行。Amazon SageMaker Edge Manager使您能够在智能相机、机器人、个人电脑和移动设备上优化、保护、监控和维护机器学习模型。    

Amazon SageMaker Edge Manager提供了一个在边缘设备上运行的软件代理。该代理附带了一个用SageMaker Neo优化的机器学习模型,因此您不需要在设备上安装Neo运行时来利用模型优化。代理还收集预测数据,并将数据样本发送到云端进行监控、标记和再培训,这样您就可以在一段时间内保持模型的准确性。所有数据都可以在SageMaker Edge Manager仪表板中查看,该仪表板报告部署模型的操作。而且,由于SageMaker Edge Manager使您能够独立于应用程序的其他部分管理模型,因此您可以独立更新模型和应用程序,这可以减少代价高昂的停机时间和服务中断。SageMaker Edge Manager还对您的模型进行加密签名,这样您就可以验证它在从云端移动到边缘设备时没有被篡改。     

Amazon SageMaker Neo 

Amazon SageMaker Neo使开发人员能够优化机器学习模型,以便在云端和边缘支持的设备上进行SageMake推理。  

机器学习推理是使用经过训练的机器学习模型进行预测的过程。在对模型进行高精度训练之后,开发人员通常会花费大量时间和精力来调整模型以获得高性能。对于云中的推理,开发人员通常会以更高的成本转向具有大量内存和强大处理能力的大型实例,以实现更好的吞吐量。对于在计算和内存有限的边缘设备上进行推理,开发人员通常会花费数月的时间手动调整模型,以在设备硬件限制条件下实现可接受的性能。   

Amazon SageMaker Neo优化了机器学习模型,以便在云实例和边缘设备上进行推理,从而在不影响准确性的情况下运行更快。您可以从已经使用DarkNet、Keras、MXNet、PyTorch、TensorFlow、Tensor Flow Lite、ONNX或XGBoost构建的机器学习模型开始,并在Amazon SageMaker或其他任何地方进行培训。然后选择目标硬件平台,可以是SageMaker托管实例,也可以是基于Ambarella、Apple、ARM、Intel、MediaTek、Nvidia、NXP、Qualcomm、RockChip、Texas Instruments或Xilinx处理器的边缘设备。只需单击一次,SageMaker Neo就可以优化经过训练的模型并将其编译为可执行文件。编译器使用机器学习模型来应用性能优化,以优化云实例或边缘设备上模型的性能。然后将模型部署为SageMaker端点或支持的边缘设备,并开始进行预测。    

对于云中的推理,SageMakerNeo通过在SageMaker托管中创建推理优化容器来加快推理速度并节省成本。对于边缘推理,SageMaker Neo可以通过为选定的操作系统和处理器硬件调整模型,为开发人员节省数月的手动调整时间。  

Amazon SageMaker Neo使用Apache TVM和合作伙伴提供的编译器和加速库来优化给定模型和硬件目标的性能,并根据Apache软件许可证为Apache TVM项目提供编译器代码,为Neo AI开源项目提供运行时代码,以使处理器供应商和设备制造商能够在通用的紧凑运行时上快速创新。

其他信息 

有关服务控制、安全特性及功能的其他信息,包括有关存储、检索、修改、限制和删除数据的信息,请参见 https://docs.amazonaws.cn/。以上链接包含的信息不构成光环新网关于亚马逊云科技(北京区域)的客户协议或西云数据关于亚马逊云科技(宁夏区域)的客户协议的“文档”的一部分,也不构成您与光环新网或西云数据之间就您使用亚马逊云科技中国区域服务达成的其他协议的任何部分。

开始使用亚马逊云科技免费构建

开始使用亚马逊云科技免费构建

关闭
热线

热线

1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域