发布于: Mar 18, 2021
Amazon SageMaker Data Wrangler 现已在中国区域(北京、宁夏)推出。Amazon SageMaker Data Wrangler 将聚合和准备机器学习 (ML) 数据所需的时间从几周缩短到几分钟。借助 Amazon SageMaker Data Wrangler,您可以简化数据准备和特征工程的流程,并通过单一可视化界面即可完成数据准备工作流程的每个步骤,包括数据选择、清理、探索和可视化。
使用 Amazon SageMaker Data Wrangler 的数据选择工具,您可以从各种数据源(包括 Amazon S3、Amazon Athena、Amazon Redshift、Amazon Lake Formation 和 Amazon SageMaker 特征存放区)中选择所需的数据,然后单击一下即可导入数据。Amazon SageMaker Data Wrangler 包含 300 多种内置数据转换,因此您无需编写任何代码即可快速规范化、转换和合并功能。借助 Amazon SageMaker Data Wrangler 的可视化模板,您可以快速预览和检查这些转换是否按预期完成,方法是在第一个用于 ML 的完全集成开发环境 (IDE) Amazon SageMaker Studio 中查看这些转换。准备好数据后,您可以使用 Amazon SageMaker Pipelines 构建完全自动的机器学习工作流程,并将其保存在 Amazon SageMaker 特征存放区中以供重复使用。
要开始使用 Amazon SageMaker Data Wrangler,请访问我们的文档。
对于大多数机器学习模型,您可以花费数周或数月来聚合和准备来自不同来源的数据:将原始数据转换和验证为可用于训练模型和进行预测的功能。您需要通过编写代码来编写数据转换,这样才能将数据转换为可以高效用于模型的格式,并且需要编写可以在大量数据源中大规模运行的额外代码 ¬ 将时间花费在高价值任务上会更好。