发布于: Jul 5, 2021

2020年的种种变化,让我们再次意识到敏捷性的重要意义。随着新冠疫情的全面爆发,我们接触到的每家客户都着手推进自己的应对之策。部分公司决定努力提高运营效率,有些企业甚至在疫情期间获得了可观的业务增长。总体而言,我们发现组织在面对严峻变化时,普遍希望借助数据的力量快速做出良好决策。要获得这样的敏捷性优势,他们需要需要利用大数据技术(了解什么是大数据),将TB、PB甚至是EB级别的数据集成起来,借此建立起覆盖客户及业务运营体系的完整视图。传统的本地数据分析解决方案显然无法支撑起如此庞大的处理规模,为了突破扩展性与资源成本的桎梏,各组织开始更积极地推动云迁移,由此迈出数据与分析基础设施现代化的前进脚步。

为了分析海量数据,许多企业开始将所有数据从各个仓库转移至统一位置(通常称为数据湖),在此执行数据分析与机器学习(ML)。他们也会将数据存储在专门构建的存储方案(比如数据仓库等)之内,由此为特定应用场景提供必要的性能、规模与成本优势。此类数据存储方案涵盖数据仓库(适合针对结构化数据通过复杂查询快速获取结果)以及Elasticsearch(适合快速搜索并分析日志数据,借此监控生产系统的运行状态)等多种具体技术。很明显,一成不变的单一数据分析方法将不可避免地对功能有所取舍,灵活多变的实现途径才是通往业务敏捷的理想道路。
为了从数据湖及专门构建的存储中获取最大收益,客户要求能够在不同系统之间轻松移动数据。例如,客户希望将来自Web应用程序的点击流数据直接收集在数据湖内,并将其中部分数据移至数据仓库以生成每日报告。我们将这种用例,总结为由内而外的数据移动操作。 

同样的,客户有时候需要由外而内进行数据移动。例如,他们希望将特定区域内的产品销售查询结果从数据仓库复制到数据湖内,进而使用机器学习对大规模数据集运行产品推荐算法。

最后,客户还可能要求将数据在不同的专用数据存储方案之间往来移动,即周边移动。例如,他们可以将存储在数据库内的产品目录数据复制到搜索服务当中,将原本极耗资源的数据库搜索查询转化为轻松易行的产品目录浏览操作。

随着数据湖与专门构建的存储方案中数据量的不断增长,数据的往来移动操作变得越来越困难。我们将此称为数据重力

为了快速灵活地做出决策,客户必须顺畅应用中央数据湖与围绕该湖建立的专用数据闭环。此外,他们还需要以安全且受控的方式在不同数据存储方案之间快速移动数据,借此确定数据的重要程度。

为了满足这些需求,客户需要一套能够支持以下目标的数据架构:

  • 快速构建起可扩展的数据湖。
  • 丰富而且功能强大的专门构建的数据服务集合,这些数据服务可以为交互式仪表板与日志分析等提供必要的性能支持。
  • 在数据湖及各专门构建的数据服务之间实现数据的无缝化移动。
  • 通过统一方式加以保护、监控与管理,保证数据访问活动的合规性。
  • 以低成本方式扩展系统,保证不对性能产生负面影响。

我们将这种现代分析方法,称为“Lake House架构

相关文章