发布于: Mar 18, 2023

随着新一轮科技革命和产业革命深入交织,数字经济正在成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。在这一过程中,作为数字化底座的云,已经不仅仅局限于基础设施角色,更是企业持续创新和精益运营的关键支撑。能否从云上获取更多价值,将成为企业能否在数字时代拥有一席之地、持续领先领跑的关键。而云原生对基础设施的革新,带来了一系列“蝴蝶效应”。

随着云原生技术已在互联网、金融等行业“落地开花”,云原生基础设施不仅可以丰富数字化应用场景的多元化实践,也将为企业发展提供可持续的内生动力,“智能湖仓”便是其中最为重要的技术架构之一。

作为“智能湖仓”架构的提出者,亚马逊云科技在云原生数据基础设施方面持续迭代创新, Amazon S3 就是其中之一。

3 月 14 日,Amazon S3 迎来17周岁,我们举办了 Pi Day 2023的庆祝活动,对 Amazon S3 发展历程进行全面回顾,希望能够不断激发数据的更大价值。

IDC 统计显示,预计到2025年,全球数据量将比2016年的 16.1ZB 增加十倍,达到 163ZB。

数据的海量与多元化决定了从数据中获取有用的价值变得越来越困难,如果无法从数据中获得益处,那么数据价值就无从谈起。

目前,数据的价值呈现两极化特征,一是及时发现,实时分析快速促进业务发展;二是长期存放,数据累积起来,探索数据后隐藏的规律,统一分析其价值,为业务发展提供参考。

新的数据价值将给企业带来更多智能创新应用,比如增长黑客、推荐系统、用户行为分析、AIoT 带来的更多模型,这也意味着 IT 基础设施的变革。

传统数据处理方式,就像“涓涓细流”,里面有 ERP、CRM 等各种业务系统,用户可以设计“一个河道”,数据库在最底层。

数据经过整理后形成中间层的数据仓库,然后通过商务智能工具(BI)来及进行展示。

但在数字化时代,各种各样的视频、移动终端信息如“滔滔江水”,形成大规模的海量数据,用户来不及整理和使用。

这时,一个新的设想打开了人们的视野,假设有那么一片洼地,把所有数据先蓄积到里面,然后通过有效的工具进行查询和处理,这便是数据湖。
国际研究机构 Marketsand Markets 最新研究报告显示,到2024年,全球数据湖市场将突破200亿美元,增至201亿美元,复合年增长率将高达20.6%。
可以说,随着数据治理与应用需求激增,数据湖成为数据管理的重要方式已成为不争的事实。

数据湖的出现,很好的解决了数据仓库建设存在的一系列问题,将数据管理的流程简化为2个阶段,数据入湖和数据分析。
数据湖一般以免运维、高可靠的对象存储为底座,支持各种数据类型的存储。

对于用户来说,借助最新的数据湖解决方案,不仅能解决过去的数据孤岛问题,同时还能兼容传统的数据仓库和数据分析方法。

最重要的是,更适合现代应用部署,比如和机器学习结合,进行预测性的分析。

随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。

有人说数据湖是下一代大数据平台,各大云厂商也纷纷提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。

不过在我们看来,数据湖与数据仓库并不是替代关系,而是互为补充、相辅相成,在此基础上的“智能湖仓”将能充分实现两者间的良性互动,成为未来重要的数据技术趋势之一。

“智能湖仓”通过数据仓库治理能力的引入,既可以很好的解决上面提到的数据湖建设的问题,也为更好的挖掘湖中数据价值提供了基础,将高效建仓、灵活建湖的两大优势融合在了一起。

不同于传统数据仓库的管理方式,“智能湖仓”极大地提高了数据开发的效率,同时降低了数据管理的难度。过去处理数据,需要资深的数据架构师定义数仓的规划,从数仓的分层、指标的定义到数据集市模型设计,然后交给专业的数据工程师进行业务开发,再由业务人员进行验证,有一套规范但却复杂的过程。而“智能湖仓”的出现,让企业能够快速的基于业务进行开发,又能够灵活的调整和规划自己的数据管理方式。另外,“智能湖仓”也让大数据行业内各个角色之间的交互变得更加自如。基于“智能湖仓”的数据管理理念,各类数据应用角色能够更好的相互协作,共同开发。

如数据科学家可以方便的集成自己的数据并以纳入标准数仓流程进行管理、业务分析师也能够自己开发数据需求等。

谈到“智能湖仓”,不得不提到其最为重要的支撑——Amazon S3 ( Simple Storage Service )。

17 年前,亚马逊云科技推出了 Amazon S3 服务,首次定义了对象存储,S3 由此成为对象存储事实上的标准,具有划时代意义。2015年,Amazon S3 支持数万亿对象存储,平均在线峰值每秒可处理150万请求,设计为 99.999999999%(“11 个 9”)的持久性。

2022 年,亚马逊云科技迎来又一座里程碑。Amazon S3 存储的对象数量已经超过 200 万亿,每秒可处理数千万个请求。

亚马逊云科技发布 Amazon Redshift 支持 auto-copy from Amazon S3,从物理存储层面打通了数据湖与数据仓库。

目前,全球数万用户都在使用 Amazon Redshift 分析数据库进行数据分析,这些用户来自游戏、金融、医疗、消费、互联网等。

在十多年发展历程中,Redshift 一直在持续迭代,很多功能和特性都源于企业的真实业务需求。

具体而言,客户数仓场景主要包括四大块:第一,常规业务运营与 BI 分析;第二,实时数仓分析;第三,查询、报表与数据分析;第四,机器学习与分析预测。

可以说,企业要想快速构建数据流水线,Amazon Redshift 是底层基础设置的重要支撑。而凭借 Amazon Redshift 与其他数据分析应用的无缝集成,用户可以获得更完美的数据分析体验。

比如:可以实现高性能格式存储数据,以更经济有效的方式将存储扩展到千兆字节,可实现存储和计算的分离,并且可以实现分析和机器学习引擎的选择等等。

早在2017年,Redshift 就已经实现湖和仓的融合,Redshift Spectrum 可以直接查询在 S3 上开放格式的数据,当然也可以将数据写入到湖中,实现了数据仓库和数据湖的数据无缝流转。

2022年,是 Redshift 推出正式满10周年。在这特别的一年,亚马逊云科技在年度大会上却一反常态,没有发布重大升级更新。

取而代之的是,在会中推出许多新功能,都是和 Redshift相关,从更紧密资料集成、流媒体资料分析到强化安全访问,力求要把 Redshift 打造成企业资料集散地,来符合各种现代化应用的使用,以及能汇集整理各种类型资料,提供 AI 分析和后续应用,更要让这个能够通吃各种资料类型的新一代数据仓库架构,成为加速企业资料现代化的关键产品。

总体而言,作为亚马逊云科技的基石技术,Amazon S3 不断为其技术创新提供源源不断的养分。而“智能湖仓”以 Amazon S3 为基础构建数据湖,作为中央存储库,围绕数据湖集成专门的“数据服务环”,包括数据仓库、机器学习、大数据处理、日志分析等数据服务,然后再利用 Amazon Lake Formation、Amazon GlueAmazon Athena、Spectrum 等工具,实现数据湖的构建、数据的移动和管理等。

“智能湖仓”架构可以被视为一个“枢纽”,将亚马逊云科技的数据服务无缝集成,打通数据湖和数据仓库之间数据移动和访问,并且进一步实现数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建的服务之间按需移动,从而形成统一且连续的整体,满足客户各种实际业务场景下的不同需求。任何阶段的企业都可以从这种敏捷的架构中快速获益,轻松打破数据及技能孤岛,并以迭代及增量的方式获得数据分析的敏捷性,缩短企业提取数据价值的创新周期。

这一架构充分利用了云服务带来的安全可靠、极致性能、无限扩展等优势,能够帮助企业消除数据孤岛,打造统一的数据基础底座,打通从数据获取到数据应用的完整流程,并让企业在云中实现数据与智能的深度融合,从而充分发挥数据价值。

以供应链的数字化升级为例,顺丰利用亚马逊云科技可大规模扩展的对象存储服务 Amazon S3 构建数据湖,将园区内大量的前端感知设备,包括摄像头、物联网 IoT 设备、地磁、多模达等收集的信息汇总到数据湖中。依托 Amazon S3 云对象存储近乎无限的存储能力,为数据驱动运营提供坚实的数据基础。

通过使用亚马逊云科技计算、存储、数据分析、容器、机器学习和安全等服务,顺丰供应链改进了园区运营流程,提升了运营效率,园区车辆日吞吐量提升40%-60%,员工作业效率提升30%,调度员和安检员工作量减少50%。

由于自动化交易平台涌入市场,交易速度和交易量持续增长,2014年,纳斯达克为了扩大规模、提高性能并降低运营成本,从旧式本地部署数据仓库迁移到由 Amazon Redshift 集群赋能的数据仓库。随着时间推移,越来越多的交易导致数据大量增加,同时,纳斯达克开始规划开发新架构以持续实现生态系统期望的性能标准和卓越运营。

2018年,纳斯达克选择在 Amazon S3 上构建新的数据湖,这使该公司能够将计算和存储分开,并独立扩展每项功能。纳斯达克通过集成亚马逊云科技 IAM 策略、Amazon S3,还可在多个亚马逊云科技账户间提供全面的访问控制功能。此外,纳斯达克使用 Amazon S3 来存储关键的金融数据,并将其移至 Amazon S3 Glacier,从而能够以较低的成本进行归档。

2019年1月,纳斯达克参加了亚马逊云科技的 Data Lab,在为期四天的实验中,纳斯达克使用 Amazon Redshift 作为计算层,重新设计了其提供分析的方式。因此,纳斯达克开始使用 Amazon Redshift Spectrum,这是一项赋能智能湖仓架构的功能,可以直接查询数据仓库和 Amazon S3 数据湖中的数据。

如此一来,洞察生成时间缩至最短,赋能斯达克经济研究团队可以进行数据分析,并对数据运行复杂的查询。起初是以性能为重点的解决方案,现在变成了团队间共享的多用途数据湖。借助基于 Amazon S3 和 Amazon Redshift 的新型智能湖仓架构,纳斯达克每天能够处理的记录数量轻松地从300亿条跃升至700亿条,并且较之前提前5小时达到90%的数据加载完成率。此外,通过优化其数据仓库,纳斯达克运行 Amazon Redshift 查询的速度加快了32%。

鉴于良好的系统体验,纳斯达克于2022年已成功将其六大美国期权交易市场之一纳斯达克 MRX 的核心交易系统迁移至亚马逊云科技。此次成功迁移标志着纳斯达克为全球资本市场构建下一代技术基础设施之旅中一个重要的里程碑。

无论是在数据基础架构、统一分析还是业务创新上,从连接数据湖和数据仓库到跨数据库、跨域共享,如今亚马逊云科技“智能湖仓”架构在企业中的实践,已经为企业构建现代化数据平台提供了一条可供遵循的路径,我们将协同 Amazon S3 与 Amazon Redshift 等更多技术和产品,进一步推进底层数据架构的现代化演进,为企业乃至全行业带来更大的价值。