发布于: Aug 9, 2022
人们收集数据的最终目的都是为了利用数据,下面就为大家介绍亚马逊云科技上的智能湖仓是如何助力机器学习与商务智能的。
数据科学家们往往需要探索、整理并特征化各类结构化与非结构化数据集,为机器学习模型的训练作业做好准备。智能湖仓接口(用于将 Amazon Redshift 与 Athena 及 Spark 接口配合使用的交互式 SQL 接口)能够为数据科学家提供以下功能,由此大大简化并加快数据准备进程:
- 统一的 Lake Formation 目录,用于搜索及发现智能湖仓存储中托管的所有数据。
- 基于 Amazon Redshift SQL 与 Athena 的交互式 SQL 功能,用于访问、浏览及转换智能湖仓存储中的所有数据。
- 基于 Spark 的统一访问机制,能够整理并转换智能湖仓存储中托管的所有数据集(包括结构化与非结构化),并将其转换为特征集。
接下来,数据科学家可以将 Amazon SageMaker 接入智能湖仓的存储层并访问训练特征集,借此完成机器学习模型的开发、训练与部署。
SageMaker 是一项完全托管服务,提供一套名为 SageMaker Studio 交互式开发环境(IDE)以构建、训练及部署机器学习的各组件。在 Studio 中,您可以使用统一的可视化界面统一上传数据、创建新 notebook、训练及调整模型、在各步骤间往来移动以调整实验过程、比较结果并将模型部署至生产环境中。SageMaker 还提供托管 Jupyter notebook,您只需单击几下即可启动 notebook。SageMaker notebook 提供弹性计算资源、git 集成、轻松共享、预置机器学习算法、几十种现成机器学习示例以及 Amazon Web Services Marketplace 集成功能,您可以轻松部署数百种经过预训练的算法。SageMaker notebook 还预先配置了所有主要深度学习框架,包括 TensorFlow、PyTorch、Apache MXNet、Chainer、Keras、Gluon、Horovod、Scikit-learn 以及 Deep Graph Library 等。
各机器学习模型在 SageMaker 托管的计算实例上进行训练,其中也包括成本效益极高的EC2竞价实例。您可以使用 SageMaker Experiments 组织多项训练作业,也可以使用 SageMaker 的内置算法、自定义算法或 Amazon Web Services Marketplace 提供的数百种算法构建训练作业。SageMaker Debugger则提供对于模型训练作业的完全可见性。最后,SageMaker 也为机器学习训练作业提供强大的自动超参数调优选项。
只需要单击几下,您就可以将 SageMaker 训练完成的模型部署至生产中,并轻松通过一组完全托管 EC2 实例进行扩展。您可以在多种 EC2 实例类型中做出选择,并附加具有成本效益的GPU驱动实例实现推理加速。模型部署完成后,SageMaker 即可监控关键模型指标以提高推理准确性,同时检测一切概念漂移迹象。
Amazon QuickSight 提供无服务器功能,可供您轻松创建并发布包含丰富信息的交互式商务智能仪表板。商务分析师们可以使用 Athena 或 Amazon Redshift 的交互式 SQL 接口,通过智能湖仓存储中的数据为 QuickSight 仪表板提供素材支持。此外,您也可以直接将 QuickSight 接入可操作数据库(例如 MS SQL、Postgres)以及各类 SaaS 应用(例如 Salesforce、Square 以及 ServiceNow 等)。为了保证仪表板拥有出色的性能表现,QuickSight 还提供一款名为 SPICE 的内存缓存与计算引擎。SPICE 能够自动复制数据以实现高可用性,允许成千上万用户同时执行快速交互式分析,并有效保护底层数据基础设施。
QuickSight 凭借开箱即用、自动生成的机器学习洞见(包括预测、异常检测与叙述重点等)极大丰富了仪表板信息与视觉效果。QuickSight 与 SageMaker 原生集成,可在商务智能仪表板上实现其他基于机器学习模型的自定义洞见。您可以使用 QuickSIght 应用程序经由任意设备访问 QuickSight 仪表板,也可以将仪表板灵活嵌入至Web应用程序、门户与网站中。QuickSight 能够自动扩展至成千上万用户,并以经济高效的按会话计费方式提供极具性价比的服务体验。
基于专用服务组合建立的智能湖仓架构将帮助您从海量数据中快速获取面向所有用户的洞察见解,同时充分预留升级空间,供您随后续发展随时引入新的分析方法与技术成果。
在本文中,我们介绍了多种专用 Amazon Web Services 服务,您可以利用它们构建起智能湖仓架构中的五个核心逻辑层。我们还提供多种选项,介绍如何在正确的工作中使用正确的 Amazon Web Services 服务以实现良好的灵活性与丰富的功能性。
相关文章