首页 » 亚马逊云科技解决方案 » 数据分析 » 一站式数据开发平台
一站式数据开发平台
此亚马逊云科技解决方案有何用途 ?
满足客户一站式开发体验和全面的数据治理需求,将数据质量、数据血缘、数据安全、数据脱敏能在一个组件中解决,并且易用,易维护。搭配 BI 工具实现敏捷 BI 的业务需求。
方案优势
一站式数据开发
各类元数据、血缘关系、数据质量检测指标等通过统一平台发布;提高数据的曝光率、可理解性与可信任度,大大提高数据的可治理能力;数据分析师可以编写 SQL,低门槛自行完成 ETL 工作。
按需、高弹性、高性能
无服务器部署的 Redshift 数仓模式支持按使用付费,无需要管理基础设施;Redshift Spectrum+S3 实现存算分离,湖仓一体的统一处理、分析;可以与 SageMaker 集成实现数智融合,智能数据挖掘。
切合 DataOps 概念
软件工程理念引入到数仓开发;提高数仓开发过程(CI/CD)的可管理性与数据质量;提升 ETL/ELT 代码的模块化、可读性、内部共享。
亚马逊云科技解决方案概述
以下架构图展示了整个方案的部署架构。
一站式数据开发平台解决方案架构图
图示说明:
数据架构
- 数据采集、存储、计算的整体技术架构 参考上页图的架构搭建;
- 数据 ETL 的处理架构 Glue/Redshift ETL processing - 使用标准的亚马逊云托管 ETL 工具完成 ETL 工作;
- 作业自动化调度设计 ECS+Codepipeline, MWAA - 托管的 Apache Airflow 提供了一个简单的用户界面,可以使用它来创建和管理 Apache Airflow 工作流、监视工作流的运行情况,并通过日志和监控数据来调试问题。
治理管控
- 数据目录 Glue Data Catalog
- 权限管控方案 Lake Formation / Customized
- 数据安全保护 KMS, Secrets, etc.
- 数据血缘分析 DBT+ECS+Redshift - DBT 作为数仓建模与 ELT 的主要工具,而 Redshift 作为 DBT 的计算引擎与模型的承载平台。基于 DBT,进一步引入 DataOps 理念,把软件工程的理念引入到数仓开发,提高数仓开发过程(CI/CD)的可管理性与数据质量,最后将 DBT 在进行 ELT 过程中产生的各类元数据、血缘关系、数据质量检测指标等通过统一平台发布,提高数据的曝光率、可理解性与可信任度,大大提高数据的可治理能力。
数据服务
数据服务的架构设计 : BI 服务的搭建 (Quicksight 将数据可视化展现出来。QuickSight 产品可以连接到多种数据源,包括 Amazon Redshift、Amazon Aurora、Amazon Athena 和 Amazon EMR,并提供丰富的可视化选项,帮助用户分析数据并呈现结果。);数据 API 接口的设计和开发。