Amazon Lake Formation 是一项可让您在几天内轻松建立安全数据湖的服务。数据湖是一个受管理的集中式安全存储库,它以数据原始形式和做好分析准备的形式存储所有数据。利用数据湖,您可以打破数据孤岛并组合进行不同类型的分析,从而获得见解并指导作出更好的业务决策。
然而,如今设置和管理数据湖涉及大量极为耗时且复杂的手动任务。这项工作包括加载来自不同来源的数据、监控这些数据流、设置分区、打开加密功能并管理密钥、定义转换作业并监控其操作、将数据重新整理成列格式、配置访问控制设置、删除冗余的重复数据、匹配链接记录、授予对数据集的访问权限,以及随时间推移审核访问权限。
有了 Lake Formation,创建数据湖变得轻而易举,只需定义数据源,以及指定您要应用的数据访问和安全策略。接下来,Lake Formation 会帮助您从数据库和对象存储中收集数据并按目录对数据进行编目、将数据移动到新的 Amazon S3 数据湖、使用机器学习算法对数据进行清理和分类,并保护对敏感数据的访问权限。您的用户可以访问集中的数据目录,其中会描述可用数据集及其适当用法。然后,用户可以选择 Amazon Redshift、Amazon Athena 和 Amazon EMR for Apache Spark(测试版)等分析和机器学习服务,以充分利用这些数据集。Lake Formation 建立在 Amazon Glue 中提供的功能基础之上。
优势
快速构建数据湖
借助 Lake Formation,您可以更快地移动、存储、编目和清理数据。您只需向 Lake Formation 指明数据源,Lake Formation 就会从这些数据源中抓取数据,并将数据移动到新的 Amazon S3 数据湖中。Lake Formation 会根据常用的查询字词将 S3 中的数据整理成大小合适的数据块,从而提高效率。Lake Formation 还可以将数据更改为 Apache Parquet 和 ORC 等格式,以加快分析速度。此外,Lake Formation 还具有内置的机器学习功能,可删除重复数据和查找匹配记录(两个涉及相同内容的条目),以提高数据质量。
简化安全管理
使用 Lake Formation,您可以在一个位置集中定义安全性、监管和审计策略(而不是按服务执行这些任务),然后跨分析应用程序为您的用户实施这些策略。您的策略将以一致的方式实施,不需要跨安全服务(如 Amazon Identity and Access Management 和 Amazon Key Management Service)、存储服务(如 S3)以及分析和机器学习服务(如 Redshift、Athena 和 EMR for Apache Spark [测试版])手动配置它们。这样可以减少跨服务配置策略的工作量,并确保一致的实施和合规性。
提供对数据的自助访问
借助 Lake Formation,您可以构建一个数据目录,并在其中描述可用的不同数据集,以及哪些用户组可以访问每个数据集。这可以帮助用户找到要分析的正确数据集,从而提高用户的工作效率。通过提供以一致方式实施安全性的数据目录,Lake Formation 让分析师和数据科学家可以更轻松地使用他们的首选分析服务。
对于目前位于单个数据湖中的各种数据集,他们可以使用 EMR for Apache Spark(测试版)、Redshift 或 Athena。用户还可以结合使用这些服务,而无需在孤岛之间移动数据。
工作原理
Lake Formation 可帮助用户构建、保护和管理数据湖。首先,识别 S3 或关系数据库和 NoSQL 数据库中存储的现有数据,并将数据移动到数据湖中。接下来,对数据进行抓取和编目,并准备进行分析。然后,让您的用户通过其选择的分析服务安全地自助访问数据。其他 亚马逊云科技 服务和第三方应用程序也可以通过所示的服务访问数据。
客户
Panasonic Avionics Corporation 是全球领先的机上娱乐和通信系统供应商。
Panasonic Avionics 云和数据服务总监 Anand Desikan 表示:“我们希望创建一个能够为环境中的所有不同应用程序管理安全设置的数据平台。借助 Amazon Lake Formation,我们现在只需定义一次策略,即可在任何地方,以相同的方式在我们使用的多种服务中实施它们,包括 Amazon Glue 和 Amazon Athena。增强的控制级别让我们能够安全地访问列和表的数据和元数据,而不仅仅是批量对象,这是我们数据安全和监管标准的重要组成部分。”
Accenture 是一家领先的全球专业服务公司,可提供策略、咨询、数字化、技术和运营领域的多种服务和解决方案。
Accenture 数据业务部高级架构师 Namrata Maheshwary 表示:“我专注于帮助客户完成‘云数据’之旅。具体而言,我们看到组织在需要对来自多个来源的数据进行分析时,面临着缺乏可信数据的问题。数据清理是数据分析中的关键步骤,可以极大地影响业务成果和决策。Amazon Lake Formation 的新功能在解决数据准确性和确保数据湖访问安全的挑战方面有很大帮助。我们发现在进行数据准备,以查找来自不同数据源的匹配记录,清理和删除重复数据时,利用先进的机器学习技术非常有效。这将有助于减少花费的时间、精力和成本,同时提高客户数据湖中数据的质量和准确性。”
Zalando 是欧洲领先的时尚和生活方式在线平台。
Zalando SE 工程主管 Alberto Miorin 说:“作为欧洲最时尚的科技公司,我们努力为时尚之旅所涉及的各个方面寻找数字解决方案。Amazon Lake Formation 为我们通过 Amazon Redshift 进行数据访问提供了可扩展的中央控制点,不仅简化了流程,还可通过对数据使用方式的精细控制来改进流程。现在,我们可以使用我们的首选工具在数据湖中发现、访问和分析数据,并将其用于商业智能和数据科学。这种简化的工作流程可帮助我们的管理人员按时做出正确的决策,并通过机器学习促进创新。”
Life360 是世界领先的家庭安心服务。Life360 应用程序通过智能功能保护您最重要的人并让您们随时保持联系,让您与家人建立更亲密的关系。
Life360, Inc. 云和数据服务主管 Richard Chennault 说:“我们希望使用 Amazon Lake Formation 构建数据湖,以支持基于位置的时间序列数据,并让数据加载变得更容易。预制蓝图让我们可以将数据放入到数据湖中,我们的数据工程团队不必从头开始编写代码,因此他们可以专注于操作摄取,而不是做重复工作。借助 Amazon Lake Formation,我们能够快速解锁 Amazon S3 中可用的数据,并使其可用于广泛的 亚马逊云科技 数据服务分析。数据在 Amazon S3 中保持不变,我们可以通过多种方式对其进行分析,并且我们可以完全控制它。”
Change Healthcare 是一家领先的独立医疗保健技术公司,提供数据和分析驱动型解决方案,覆盖约 2100 个政府和商业支付机构、5500 家医院、900000 名医生和 33000 家药房。
Change Healthcare 首席技术官 Aaron Symanski 说:“我们每天处理数百万笔交易的数据,同时确保遵守医疗行业的法规要求,包括 HIPAA。我们对 Amazon Lake Formation 的推出感到欣喜,它提供了一个集中控制点,可以轻松地对数千个客户端的数据进行加载、清理和保护,并编目到我们基于 亚马逊云科技 的数据湖中,从而显著降低了我们的运营负担。借助 Lake Formation 中的数据访问控制,我们可以轻松地一次定义所有策略、在我们使用的所有分析和机器学习服务中实施这些策略,并使用审计日志来反映在合规性方面的表现。”
Fender Digital 隶属于标志性吉他品牌 Fender,负责开发应用程序、网站、平台和工具,以作为 Fender 所生产吉他、功放和音频设备的补充。
Fender Digital 的工程副总裁 Joshua Couch 说:“我们的数字应用和设备不断生成大量用户和使用数据。我们计划建立一个 Data Lake on 亚马逊云科技,与我们基于 Amazon Redshift 的数据仓库一起运营。我迫不及待地想让我的团队开始使用 Amazon Lake Formation。借助 Lake Formation,我们将能够轻松地加载、转换和编目数据,并实现在组织内跨广泛的 亚马逊云科技 服务组合安全使用这些数据。借助像 Lake Formation 这样的企业级服务,我们将能有更多时间来从数据中获取价值,而不是在手动设置和管理数据湖时执行繁重的工作。”
借助于强大的迁移和管理软件平台 Cloudamize,Cloudreach 简化了数据驱动型决策,并为客户带来绝对信心。
Cloudreach 的 亚马逊云科技 Practice 首席技术官 Kevin Davis 表示:“Amazon Lake Formation 正在让数据湖普及化,并加速企业数据策略的实施。Amazon Lake Formation 能够以集中方式实现服务的安全保护和监管工作,从而简化管理并降低运营开销。通过加速消除企业数据孤岛及其他数据计划(如机器学习),商业价值开始增值。”
Amgen 是世界上最大的独立生物技术公司。
Amgen 企业数据湖产品负责人 Kerby Johnson 表示:“在三年多的时间里,Amgen 大量使用 Amazon Redshift 和 Amazon EMR 集群。要为每个 亚马逊云科技 账户、服务、用户和数据集设置安全性和访问控制,并且达到所需的细致程度,操作将会非常繁琐。Amazon Lake Formation 通过集中控制点简化了该流程,同时让我们能够更精细地管理使用者及使用方式。Amazon Lake Formation 让我们可以像管理对数据库中的数据的权限一样,管理对 Amazon S3 中的对象的权限。我们的用户将能够使用他们偏好的工具查找、访问和分析自己需要的数据。这个新的工作流程可以让每个人在使用 Amgen 的数据时更有效率。”
Alcon 在视力和眼睛护理产品的创新和开发方面领先业界,其产品改变了许多用户的人生。
Alcon 的 IT 分析主管 Srinivas Ravilisetty 表示:“像许多公司一样,我们开始实施数据湖计划,以摆脱数据孤岛的桎梏。通过 Amazon Lake Formation,我们可以快速添加对现有 Amazon S3 存储桶的访问权限,并定义其中的内容以及如何使用它们。数据保留在 S3 中,但我们拥有对数据的完整控制权限可将其用于其他用途。”
Quantiphi 是一家提供人工智能和大数据软件和相关服务的公司,致力于解决复杂业务问题。Quantiphi 专门为客户构建数据湖和 AI 解决方案,以提供可量化的价值。
Quantiphi 的 亚马逊云科技 Practice 主管 Arnav Gupta 说:“Amazon Lake Formation 让我们能够在几天内提供可访问相关数据的安全数据湖。我们现在能够为我们的客户提供两全其美的产品,在提供全面安全性的同时,让他们可以更容易访问相关数据,以便轻松做出决策。我们的客户可以通过利用功能强大的集中数据源,专注于制定更明智的分析驱动型业务决策。”