发布于: Mar 22, 2022
应用程序迁移是不少拥有庞大数据库的企业所面临的难题。时至今日,各类组织都面对着前所未有的数据量增长与数据复杂性提升。但是,如此宝贵的资产中只有一小部分可被实际用于分析。传统的本地 MPP 数据仓库(例如 Teradata、IBM Netezza、Greenplum 以及 Vertica 等)都采用严格的架构设定,无法适应现代大数据分析用例。这类传统数据仓库的部署与运营成本也更高,需要在软件及硬件层面进行大量前期投资。另外,它们也无法支持需要高级机器学习与个性化体验的现代用例,例如实时或预测式分析与应用程序。
Amazon Redshift 是一项快速、全托管、云原生且极具成本效益的数据仓库,能够将您的分析管道从这些限制中解放出来。大家可以在您的 Amazon Redshift 集群当中面向 PB 级别的庞大数据执行查询,甚至可以直接对接数据湖中高达EB级别的数据集合。大家还可以在几分钟之内建立一套云数据仓库,每小时起步使用成本仅为 0.25 美元,而后以每 TB 每年 1000 美元的低廉价格将数据体量扩展至 PB 水平——这一成本甚至不足其他竞争对手解决方案的十分之一。
面对当前数以万计的全球部署与快速增长,Amazon Redshift 也迎来了无数希望从传统 MPP 数据仓库迁移至这一新型云端数据仓库解决方案的客户,以及由他们带来的巨大需求。亚马逊云科技 Schema Conversion Tool (SCT) 能够自动将源数据库 schema 与大多数数据库代码对象(包括视图、存储过程与函数)转换为 Amazon Redshift 中的等效功能,极大提升此类 MPP 迁移效果的可预测性。SCT 还可以使用内置数据迁移代理,帮助客户将数据从多个数据仓库处统一迁移至 Amazon Redshift。
大规模 MPP 数据仓库迁移不仅伴随着极高的项目复杂性,同时也在资源、时间与成本方面带来一系列风险挑战。但通过以主题及对象层级为基础的数据仓库迁移路线图,大家可以极大降低陈旧数据仓库与工作负载迁移所带来的复杂度水平。
亚马逊云科技 Professional Services 结合我们过去几年中参与的一系列大型 MPP 数据仓库迁移项目,设计并开发出这款工具。相关方法充分汲取来自 ETL 与报告工作负载中的分析经验,全面考量其间涉及的高复杂度依赖关系。以多个维度为基础,其将复杂的数据仓库迁移项目拆分成多个逻辑与系统波次,包括业务优先级、数据依赖关系、工作负载概况以及现有服务水平协议(SLA)等。
基于消费的迁移模式已经被证明是一种行之有效且效率极高的 MPP 数据仓库迁移方法。该模式通过一系列操作将工作负载从源 MPP 数据仓库迁移至 Amazon Redshift。在完全淘汰源MPP数据仓库之前,大家应并行运行源 MPP 数据仓库与 Amazon Redshift 并保持一段时间。关于更多详细信息,请参阅如何在无停机情况下将大型数据仓库从 IBM Netezza 迁移至 Amazon Redshift。
- 主题域——数据源与数据域的组合,其通常与业务功能(例如销售或支付)相关联。
- 应用程序——一种分析方法,通过消费一个或者多个主题域为客户提供价值。
以下示意图,展示了数据主题域与信息消耗的具体工作流。
图一:消费应用程序(报告/分析)与主题域(数据源/域)。
这种方法有助于促进客户建立数据驱动型企业(D2E)。具体优势包括:1)帮助深入理解客户的业务环境与用例;2)有助于制定企业数据迁移路线图。