一般性问题

问:什么是数据湖?

答:数据湖是一个可扩展的中央存储库,可存储各种各样的大量数据,包括结构化和非结构化数据。数据湖让您能够对数据的整个生命周期进行管理。要构建数据湖,第一步是从各种来源提取数据并对数据进行编目。然后在对数据进行丰富、合并和清理后,执行数据分析。这样一来,便可通过直接查询、可视化功能和机器学习来轻松发现和分析数据。数据湖与传统数据仓库相辅相成,能够提高数据提取、存储、转换和分析的灵活性、成本效益和可扩展性。使用数据湖可以克服数据仓库在构建和维护方面一直以来存在的挑战,以及在分析类型方面存在的局限性。

问:什么是 Amazon Lake Formation?

答:Lake Formation 是一种集成的数据湖服务,可让您轻松地获取、清理、编目、转换和保护您的数据,并可用于分析和机器学习。Lake Formation 提供了一个中央控制台,您可以在其中发现数据源、设置转换作业以将数据移至 Amazon S3 数据湖、删除重复项和匹配记录、对数据进行编目以供分析工具访问、配置数据访问和安全策略以及审计和控制 Amazon 分析和机器学习服务的访问Lake Formation 通过 Amazon Glue、Amazon Athena、Amazon Redshift 以及 Amazon EMR Notebooks 和 Zeppelin Notebooks(含 Apache Spark)(测试版)等服务,自动管理对 Amazon S3 中注册数据的访问,以确保符合您定义的策略。如果您设置了跨 Amazon 服务的转换作业,Lake Formation 会配置作业流、集中编排作业,并允许您监控作业的执行情况。借助 Lake Formation,您可以配置和管理数据湖,而无需手动集成多个底层 亚马逊云科技 服务。 

问:为什么要使用 Lake Formation 构建数据湖?

答:Lake Formation 可帮助您轻松构建、保护和管理 亚马逊云科技 数据湖。Lake Formation 集成了底层 亚马逊云科技 安全、存储、分析和机器学习服务,并能够自动配置这些服务,以确保符合集中定义的访问策略;另外,Lake Formation 还提供集中的控制台,方便您监控作业、数据转换和分析工作流程。

Lake Formation 可以通过  Amazon Glue 管理数据提取。数据会自动得到分类,相关数据定义、schema 和元数据会存储在中央数据目录中。另外,Amazon Glue 会将数据转换为您为在 S3 中存储数据所选的开放数据格式,并对数据进行清理,以删除重复数据和跨数据集实现记录关联。数据存储到 S3 数据湖中后,您可以定义访问策略(包括表级和列级访问控制),并对静态数据执行加密。然后,您可以使用各种 Amazon 分析和机器学习服务来访问自己的数据湖。所有访问都受保护、监管并且可审计。

问:FindMatches ML 转换可以解决哪些问题?

答:FindMatches 通常可以解决记录链接和数据重复数据删除问题。您在尝试识别数据库中在概念上“相同”,但却具有单独记录的记录时,必须执行重复数据删除。如果可以通过唯一密钥识别重复记录(例如,如果产品通过 UPC 代码唯一地进行标识),则此问题很简单。不过,如果必须执行“模糊匹配”,这个问题会变得非常棘手。

从根本上来说,记录链接与数据重复数据删除是同一个问题,但是“记录链接”通常意味着对两个不共享唯一密钥的数据库进行“模糊联接”,而不是对单个数据库进行重复数据删除。例如,想一想将大型客户数据库与小型已知欺诈者数据库相匹配的问题。无论是记录链接还是重复数据删除问题,均可使用 FindMatches 处理。

例如,Lake Formation 的 FindMatches ML 转换可以帮助您解决以下问题:

  • 如果不同医院的单独数据库中均包含姓名、出生日期、家庭住址、电话号码等常见字段,则对各个数据库使用 FindMatches 可以在不同医院的患者记录之间建立关联,这样医生就可以了解更多的背景信息,从而更好地治疗患者。
  • 对包含“片名”、“情节简介”、“上映年份”、“放映时间”和“演员”等列的电影数据库进行重复数据删除。例如,同一部电影可能有各种标识:“星球大战”、“星球大战:新希望”和“星球大战 4:新希望(特别版)”。
  • 通过在服装商品目录中标识等价商品,自动将店铺中的所有相关商品分组在一起,其中,同一商品均定义为“相同”,而无论尺寸和颜色是否相同。因此,“Levi 501 蓝色牛仔裤,34x34 码”与“Levi 501 黑色牛仔裤,32x31 码”被视为相同。

问:Lake Formation 如何对数据执行重复数据删除?

答:Lake Formation 的 FindMatches ML 转换可以轻松找到指代同一实体但未采用相同可靠标识符的记录,并在记录间建立关联。在未采用 FindMatches 的时候,开发人员通常需要编写大量手动调整的规则才能确定性地解决数据匹配问题。FindMatches 在“幕后”使用机器学习算法来学习如何根据每个开发人员自己的业务标准来匹配记录。FindMatches 会首先识别客户要标记的记录是否匹配,然后使用机器学习来创建 ML 转换。之后,客户可以在其数据库中执行此转换以查找匹配的记录,也可以要求 FindMatches 提供额外的待标记记录,以提高 ML 转换的准确度。

问:什么是 ML 转换?

答:ML 转换为创建和管理机器学习转换提供了目标。创建和训练 ML 转换后,即可使用标准 Amazon Glue 脚本执行它们。客户选择特定算法(例如 FindMatches ML 转换)、输入数据集和训练示例,以及算法所需的调整参数。Amazon Lake Formation 使用这些输入内容来构建可以整合到正常 ETL 作业工作流程中的 ML 转换。

问:ML 转换如何运作?

答:Lake Formation 包括基于 ML 的专门数据集转换算法,客户可以使用这些算法创建自己的 ML 转换。其中包括记录重复数据删除和匹配查找。

客户首先导航到 Lake Formation 控制台中的“ML 转换”选项卡(也可以使用 ML 转换服务终端节点,或通过 CLI 访问 ML 转换训练),创建第一个 ML 转换模型。“ML 转换”选项卡为管理用户转换提供了方便用户查看的视图。ML 转换要求采用与其他转换不同的工作流程要求,包括需要单独的训练、参数调整和执行工作流程;需要评估所生成转换的质量指标;以及需要管理和收集额外的事实标签,以进行训练和主动学习。

要通过控制台创建 ML 转换,客户需要先选择转换类型(例如“记录重复数据删除”或“记录匹配”),然后提供之前在“数据目录”中发现的相应数据源。根据具体执行的转换,系统可能会要求客户为训练或其他参数提供真实标签数据。客户可以监控训练作业的状态,并查看每个转换的质量指标。(系统使用客户提供的一组标签数据报告质量指标。)

对效果感到满意后,客户就可以推广 ML 转换模型用于生产。然后,ML 转换可以在 ETL 工作流程中使用,既可以用于服务自动生成的代码,也可以用于与其他作业一起提交的用户定义脚本,这与 Amazon Glue 库中提供的预构建转换类似。

问:Lake Formation 与其他 亚马逊云科技 服务有何关系?

答:Lake Formation 负责为存储在 S3 中的注册数据管理数据访问权限,并通过统一的安全模型和权限管理来自 Amazon Glue、Athena、Redshift 以及 Amazon EMR Notebooks 和 Zeppelin Notebooks for EMR(含 Apache Spark)(测试版)的查询访问权限。Lake Formation 可以从 S3、Amazon RDS 数据库和 Amazon CloudTrail 日志中提取数据,查询数据格式,以及清理数据并让数据变得可查询。Lake Formation 会配置作业流,集中编排作业流,并允许您监控作业的执行情况。

问:Lake Formation 与 Amazon Glue 有何关系?

答:Lake Formation 利用与 Amazon Glue 共享的基础设施,包括控制台控制、ETL 代码创建和作业监控、用于创建数据提取工作流程的蓝图、相同的数据目录和无服务器架构。与侧重于这些类型功能的 Amazon Glue 不同,Lake Formation 涵盖所有 Amazon Glue 功能,并提供了旨在帮助构建、保护和管理数据湖的额外功能。

ETL 和目录

问:Lake Formation 如何帮助发现可以移至数据湖的数据?

答:Lake Formation 可自动发现 Amazon IAM 策略为其提供访问权限的所有 亚马逊云科技 数据源。它可抓取 S3、RDS 和 CloudTrail 源,并通过蓝图将其识别为可以提取到数据湖中的数据。未经您的许可,任何数据都不会移动,也不能用于分析服务。您还可以使用 Amazon Glue 从包括 S3 和 DynamoDB 在内的其他来源获取数据。

此外,您还可以定义 JDBC 连接,以允许 Lake Formation 访问您的 亚马逊云科技 数据库和本地数据库,包括 Oracle、MySQL、Postgres、SQL Server 和 MariaDB。

Lake Formation 可确保在一个中央数据目录中描述所有数据,以便您集中浏览有权查看和查询的数据。这些权限在数据访问策略中定义,并且可以在表级和列级进行设置。

除了抓取程序自动填充的属性外,您还可以在表级或列级添加包括业务属性(如数据敏感性)在内的其他标签,以及添加字段级注释。

问:Lake Formation 如何在数据湖中整理数据?

答:您可以使用 Lake Formation 中提供的一个蓝图将数据提取到数据湖中。Lake Formation 会创建 Glue 工作流程,以抓取源表、提取数据并将其加载到 S3。在 S3 中,Lake Formation 会为您整理数据,包括通过设置分区和数据格式来优化性能和成本。对于 Amazon S3 中已存在的数据,您可以将这些存储桶注册到 Lake Formation 以便进行管理。

Lake Formation 还会抓取您的数据湖以维护数据目录,并提供直观的用户界面,供您搜索实体(可按类型、分类、属性或自由格式文本进行搜索)。

问:Lake Formation 如何使用机器学习清理数据?

答:Lake Formation 提供运行机器学习算法的作业,以执行重复数据删除和为匹配记录建立关联。创建 ML 转换非常简单,只需选择源、选择所需转换以及为要执行的更改提供训练数据即可。您对训练效果感到满意后,便可以在常规数据移动工作流程中运行 ML 转换,而无需任何机器学习专业知识。

问:还可以采用哪些其他方式将数据提取到 亚马逊云科技,以便与 Lake Formation 配合使用?

答:客户可以使用具有 Amazon Snowball、Amazon Snowball Edge 和 Amazon Snowmobile 的物理设备将 PB 级或 EB 级数据从其数据中心移至 亚马逊云科技,也可以使用 Amazon Storage Gateway 将其本地应用程序直接连接到 亚马逊云科技。客户可以使用客户网络与 亚马逊云科技 之间的专用网络连接通过 Amazon Direct Connect 加快数据传输,也可以使用 Amazon 遍布全球的边缘站点和 Amazon S3 Transfer Acceleration 加快远距离全球数据传输。Amazon Kinesis 还提供了将流数据加载到 S3 的实用方法。可以对 Lake Formation 数据导入程序进行设置,以执行进行中的 ETL 作业,并为提取的数据做好分析准备。

问:是否可以将现有数据目录或 Hive Metastore 与 Lake Formation 配合使用?

答:Lake Formation 提供了一种将现有目录和元存储导入数据目录的方法。但是,Lake Formation 需要元数据位于数据目录中,以确保对数据的访问权限受到监管。

安全和监管

问:Lake Formation 如何保护数据?

答:Lake Formation 为您提供了一个中心位置来为数据提供保护。您可以在该位置配置对数据进行保护的精细粒度数据访问策略,而不用考虑使用何种服务访问数据。

要使用 Lake Formation 实现数据访问策略控制的集中化,请先禁止对 S3 中存储桶的直接访问权限,以便所有数据访问都由 Lake Formation 进行管理。接下来,使用 Lake Formation 配置数据保护和访问策略,以便强制让访问湖中数据的所有 亚马逊云科技 服务执行这些策略。您可以配置用户和角色,并定义这些角色可以访问的数据(详细度可达表级和列级)。

Lake Formation 目前支持 S3 上的服务器端加密(SSE-S3,AES-265)。Lake Formation 还支持 VPC 中的私有终端节点,并记录 Amazon CloudTrail 中的所有活动,因此可以实现网络隔离和可审计性。

问:Lake Formation 如何与 Amazon IAM 配合使用?

答:Lake Formation 与 IAM 相集成,因此经过身份验证的用户和角色可以自动映射到存储在数据目录中的数据保护策略。在 IAM 集成的基础上,您还可以使用 Microsoft Active Directory 或 LDAP 来通过 SAML 实现与 IAM 的联合。 

启用数据访问

问:Lake Formation 如何帮助分析师或数据科学家发现他们可以访问的数据?

答:Lake Formation 可确保在数据目录中描述所有数据,让您可以在一个集中位置浏览有权查看和查询的数据。这些权限在数据访问策略中定义,并且可以在表级和列级进行设置。

问:是否可以将第三方商业智能工具与 Lake Formation 配合使用?

答:可以,您可以使用第三方业务应用程序(如 Tableau 和 Looker),通过 Athena 或 Redshift 等服务连接到您的 亚马逊云科技 数据源。对数据的访问由底层数据目录进行管理,因此无论您使用哪个应用程序,都可以确保对数据的访问受到监管和控制。

问:Lake Formation 是否提供 API 或 CLI?

答:是,Lake Formation 提供 API 和 CLI,将 Lake Formation 功能集成到您的自定义应用程序中。您还可以使用 Java 和 C++ 开发工具包将自己的数据引擎与 Lake Formation 相集成。

了解有关 Amazon Lake Formation 定价的更多信息
了解更多 
注册账户
注册 
开始在控制台中构建
登录 
关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域