发布于: Jun 22, 2022
十年前,2012 年 11 月,我们在首届亚马逊云科技 re:Invent 大会上,发布了 Amazon Redshift,这是第一个完全托管、PB 级的云数据仓库。相对于传统的本地数据仓库解决方案,Amazon Redshift 的发布彻底变革了行业的格局。
传统的本地数据仓库解决方案不仅成本高、缺乏弹性,而且需要很高的调整和操作技术水平。
在 Amazon Redshift 的帮助下,使用现有商业智能工具分析数据不仅成本低廉,而且简单高效。在发布之后 Amazon Redshift 成为亚马逊云科技增长最快的服务之一。如今,全球范围内,数以万计的客户在亚马逊云科技的中使用 Redshift,每天用来处理 EB 级数据。
2022 年,Amazon Redshift 的主创成员在费城举行的 ACM 顶级会议SIGMOD/PODS,发布了论文《Amazon Redshift re-invented》
在过去的几年里,Amazon Redshift 的用例已经发生变化。为应对这种变化,我们持续对 Amazon Redsfhit 进行架构改进,来保持其行业领先。
通过分层存储、多集群自动扩展、跨集群数据共享以及 AQUA 查询加速层等创新,Redshift 提高了存储和计算的可扩展性。
Amazon Redshift Serverless 是云原生数据仓库架构创新的集大成者,允许客户在无需设置和管理数据仓库基础设施的情况下运行和扩展数据分析。Amazon Redshift 通过独有特性(例如使用 Spectrum 查询数据湖、Redshift ML)与亚马逊云科技云服务进行广泛整合与集成,使得它具备承担超越传统数据仓库的使用场景对能力。
近日,亚马逊云科技推出 Amazon Redshift 流式注入(Streaming Ingestion)功能预览,让客户能够直接从 Amazon Kinesis Data Streams(一项无服务器流式数据服务,可简化任何规模的数据流捕获、处理和存储)向Amazon Redshift数据仓库中注入实时数据并分析。
Amazon Redshift 流式注入功能可以让客户无需在 Amazon Simple Storage Service(Amazon S3)中暂存数据,直接将每秒数百兆的流数据接收到 Amazon Redshift 数据仓库集群并处理。
在游戏实时数据分析、在线广告点击流分析、零售 POS 机数据流分析、应用日志和网络日志分析、物联网设备数据分析等应用场景中,应用或者终端设备会在短时间内持续生成巨量数据流。
这些数据流会被送到 Amazon Kinesis Data Streams 进行实时缓存并最终使用 Amazon Redshift 完成数据分析。
以往,客户如果想从 Amazon Kinesis Data Streams 向 Amazon Redshift 注入实时数据,需要先在 Amazon S3 中暂存数据,然后使用 Copy 命令加载数据来构建数据管道,这一过程通常需要几分钟才能完成。
但越来越多客户希望能够分析实时数据流以尽早获得数据洞察。
Amazon Redshift 流式注入功能的推出,满足了客户真实数据流对数据处理规模和实时性的要求。
基于这一功能,客户可以同时连接来自多个 Amazon Kinesis Data Streams 的数据,将实时数据直接注入 Amazon Redshift。客户使用现有工具和熟悉的 SQL 执行下游处理和转换,无需额外的成本,在几秒钟内从数据中获得洞察。
Amazon Redshift 流式注入大幅简化流式数据管道构建,加速数据处理,支持以低延迟、高吞吐量访问数据仓库中的实时数据,帮助数据工程师、数据分析师和大数据开发者将数据分析从“批量”转向“实时”。
目前,数以万计的客户每天使用 Amazon Redshift 处理 EB 级的数据,为高性能商业智能(BI)报告、仪表板应用程序、数据探索和实时分析等分析工作负载提供支持。
Amazon Redshift 流式注入功能的推出将进一步丰富客户的使用场景。客户可将流式数据实时分析与数据仓库中的其它数据源相结合,丰富和扩展实时分析应用场景。
例如,游戏运营人员可以分析来自游戏玩家的实时数据,优化游戏体验,提高转化和留存率;营销部门可以分析在线广告的点击流数据,评估用户足迹和行为,及时向客户投放广告;分析人员可以实时分析零售 POS 数据,实现零售交易的实时报告、分析和可视化;开发人员和工程师可以实时分析应用程序日志和网络日志流数据,实时排除故障,采取预防措施,改善产品体验。
客户可以将 Amazon Redshift 流式注入功能与 Amazon Kinesis 服务一起使用,实时分析 IoT 数据,获取设备状态和属性(位置和传感器数据),监控应用程序,进行欺诈检测,实现实时排行榜功能等等。
所有企业的大数据分析需求都是动态的,而大多数企业的数据战略并不清晰。企业需要一套现代数据战略提供管理、访问、分析和处理数据的全面规划,以应对大数据分析需求的增长,并满足当前和将来的分析用例。借助亚马逊云科技智能湖仓架构,用户可以快速构建可扩展的数据湖,使用广泛而深入的专门构建数据服务组合,实现统一的数据访问,保证数据安全和治理,以低成本扩展系统的同时而不损及性能,并轻松跨组织边界共享数据,进行快速、灵活地决策与数据分析。
Amazon Redshift 流式注入功能的推出,进一步丰富了亚马逊云科技无服务器分析产品服务不同客户业务场景的能力,可以让客户无需配置、扩展或管理底层基础设施,即可轻松地处理实时动态的数据同步,为机器学习项目提供兼具性能和成本效益的实时特征数据准备。也为企业打造现代化数据战略,向数据驱动型企业迈进,提供了新的创新方向。
我们已在亚马逊云科技小程序上线了 Amazon Redshift 的培训课程,包含了产品架构解读、最佳实践、应用场景、最新功能解读与五个快速开始的 Demo
欢迎大家进入小程序学习了解