使用 Amazon SageMaker Feature Store 优化机器学习数据处理

发布于: Aug 26, 2022

作为 Amazon SageMaker 中的一项新功能，Feature Store 将帮助数据科学家与机器学习工程师轻松安全地存储、发现并共享训练与预测工作流中使用的被选中数据

机器学习数据处理一直是一个令人头疼的话题，今天，我们很高兴公布 Amazon SageMaker Feature Store。作为 Amazon SageMaker 中的一项新功能，Feature Store 将帮助数据科学家与机器学习工程师轻松安全地存储、发现并共享训练与预测工作流中使用的被选中数据。

如同正确算法之于机器学习模型训练，经验丰富的从业者都很清楚高质量数据的重要意义。数据清洗无疑是良好的起点，包括在机器学习工作流中填充缺失值、消除异常值等。以此为基础，我们往往使用一种既常见、又相当不可思议的技术（即「特征工程」）进行数据转换。

简而言之，特征工程的目标在于转换数据并提高其表达能力，借此改善算法的学习效果。例如，大部分列式数据集都包含字符串，例如街道地址。对大多数机器学习算法而言，字符串没有任何意义，必须通过编码以数字形式表示。因此，我们可以将街道地址转换为 GPS 坐标，这就是一种更具表现力的位置概念学习方法。换句话说，如果数据是原油，那么特征工程就是将其转化为高辛烷值燃料的精炼过程，由此推动模型获得更高精度。

事实上，机器学习从业者往往耗费大量时间来开发特征工程代码、将其应用于初始数据集、在工程数据集上训练模型，最终评估模型的准确性。考虑到这项工作的实验性质，即使是最小的项目也需要进行多次迭代。同样的特征工程代码会一遍又一遍运行，这些重复的操作无疑既浪费时间、又浪费资源。在大型组织当中，这可能引发更严重的生产力损失，导致不同团队需要执行相同的工作，甚至因为不了解之前的工作成果而编写重复的特征工程代码。

机器学习团队还需要解决另一个难题。由于模型在工程数据集之上训练而成，因此必须对用于预测的数据执行相同的转换。在此期间，我们往往需要重写特征工程代码（有时需要使用另一种语言）、将其集成至预测工作流内，并在预测时进行这部分代码。整个过程不仅极为耗时，而且由于数据转换中极其微小的变化都可能对预测结果产生重大影响，因此往往存在严重的不一致问题。

为了解决这些问题，机器学习团队有时会建立特征库。这是一类中央存储库，团队可以在其中保存并检索可供训练及预测工作使用的工程数据。可以想见，要建立这样一套特征存储体系，我们需要大量的工程、基础设施与运营工作，这又会占用本应用于实际机器学习工作的宝贵时间。客户希望我们提供相应的解决方案，于是我们开始付诸行动。

关于 Amazon SageMaker Feature Store

Amazon SageMaker Feature Store 是一套完全托管的集中存储库，可安全便捷地存储并检索机器学习特征，用户无需管理任何基础设施。Feature Store 是 Amazon Web Services 推出的 Amazon SageMaker 的组成部分，并可支持所有算法。它也能够与我们基于 Web 的机器学习开发环境 Amazon SageMaker Studio 相集成。

SageMaker Feature Store 中存储的特征将以组为单位进行组织，并使用元数据加以标记。以此为基础，您可以快速判断哪些特征可用，以及是否适用于您的模型。各团队之间还可以轻松共享并重用这些特征，从而降低开发成本并加快创新速度。

在存储完成之后，各项特征即可在模型训练、批量转换以及低延迟实时预测等 SageMaker 工作流内各环节被检索与使用。以此为基础，您不仅可以避免重复工作，同时也可以建立起统一的工作流，确保各工作流使用存储在离线及在线存储库内的相同特征。

作为拜耳旗下子公司，The Climate Corporation (Climate) 致力于帮助农民获得数字化创新能力。该公司气候数据与分析副总裁 Daniel McCaffrey 表示: “在 Climate，我们坚信应当为世界各地的农民提供准确信息，帮助他们以数据为依据做出决策，最终在单位土地上获得最大回报。为了实现这一目标，我们投资构建机器学习工具等多种技术，并通过「特征」这类可量化实体（例如亩产指标）构建模型。借助 Amazon SageMaker Feature Store，我们得以使用这套中央特征库加速机器学习模型的开发，轻松跨多个团队实现特征访问与重用。SageMaker Feature Store 使用户能够轻松使用在线存储库实时访问特征，或使用离线存储库按计划在不同用例内运行特征，由此加快机器学习模型的开发速度。”

全球领先的高质量家庭护理服务搜索与管理平台 Care.com 也在使用 Amazon SageMaker Feature Store。根据 Care.com 公司数据科学经理 Clemens Tummeltshammer 的介绍: “要推动从个人、家庭到整个国家的经济增长，我们必须建立起供需相匹配的健壮产业。我们对 Amazon SageMaker Feature Store 与 Amazon SageMaker Pipelines 深表赞赏，也相信它们将通过使用统一的精选数据集帮助我们在整个数据科学及开发团队中建立良好的扩展能力，由此构建起可扩展的数据准备与部署体系，进而支撑起可扩展的端到端机器学习模型管道。借助 Amazon SageMaker 新近公布的这项功能，我们能够加快不同应用程序中机器学习模型的开发与部署，加快实时建议交付速度、帮助客户做出更明智的决策。”

相关文章