重温 2024 年亚马逊云科技 re:Invent 的精彩瞬间,一键查看主题演讲及创新讲座的精彩回放

 ✕

Amazon SageMaker Data Wrangler

为机器学习准备数据的最快、最简单的方法

Amazon SageMaker Data Wrangler 将聚合和准备机器学习 (ML) 数据所需的时间从几周缩短到几分钟。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的流程,并通过单一可视化界面即可完成数据准备工作流程的每个步骤,包括数据选择、清理、探索和可视化。使用 SageMaker Data Wrangler 的数据选择工具,您可以从各种数据源中选择所需的数据,然后单击一下即可导入数据。SageMaker Data Wrangler 包含 300 多种内置数据转换,因此您无需编写任何代码即可快速规范化、转换和合并功能。借助 SageMaker Data Wrangler 的可视化模板,您可以快速预览和检查这些转换是否按预期完成,方法是在第一个用于 ML 的完全集成开发环境 (IDE) Amazon SageMaker Studio 中查看这些转换。准备好数据后,您可以使用 Amazon SageMaker Pipelines 构建完全自动的机器学习工作流程,并将其保存在 Amazon SageMaker 特征存放区中以供重复使用。

在几分钟内为 ML 准备数据

只需点击几下即可选择和查询数据

使用 SageMaker Data Wrangler 的数据选择工具,您可以快速从多个数据源(例如 Amazon S3、Amazon Athena、Amazon Redshift、Amazon Lake Formation 和 Amazon SageMaker 特征存放区)中选择数据。您还可以为数据源编写查询,然后从各种文件格式(如 CSV 文件、Parquet 文件和数据库表)直接将数据导入到 SageMaker 中。

轻松转换数据

SageMaker Data Wrangler 提供了 300 多种预先配置的数据转换选择,例如转换列类型、一种热编码、使用平均值或中位数插补缺失数据、重新扩展列和数据/时间嵌入,因此,您无需编写一行代码即可将数据转换为可高效用于模型的格式。例如,您只需单击一下即可将文本字段列转换为数字列,或者在 PySpark、SQL 和 Pandas 中编写自定义转换。

通过可视化了解您的数据

SageMaker Data Wrangler 通过一组强大的预配置可视化模板帮助您了解数据并识别潜在的错误和极值。直方图、散点图、箱线图、折线图和条形图均有提供。直方图等模板使您无需编写代码即可轻松创建和编辑自己的可视化。

快速估计 ML 模型的准确性

更快地诊断和修复机器学习数据准备问题

SageMaker Data Wrangler 使您能够快速识别数据准备工作流程中的不一致之处,并在将模型部署到生产之前诊断问题。您可以快速确定准备好的数据是否会生成准确的模型,以便确定是否需要额外的特征工程来提高性能。

只需点击一下即可完成从准备到生产的过程

自动执行 ML 数据准备工作流程

只需单击一下即可将数据准备工作流程导出到笔记本或代码脚本中,以将其投入生产。SageMaker Data Wrangler 将您的数据准备工作流程与 Amazon SageMaker Pipelines 无缝集成,以实现模型部署和管理的自动化。它还在 Amazon SageMaker 特征存放区中发布功能,以便您可以在团队中共享功能,且其他人可以将这些功能重复用于自己的模型和分析。

关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域