发布于: Jan 11, 2022

流处理技术源于企业的实际需求,这些企业经历了数据量、数据产生速度和数据种类的巨大增长,并且迫切需要快速摄取和评估这些数据来进行业务决策。

与传统系统的批处理模式(静态数据)相比,处理和分析运动中数据的能力已是企业间的关键差异因素之一。尤其在企业进行数字化转型的今天,企业迫切需要对当下正在发生的事情进行分析的需求,而不是对昨天或上个月发生的事情进行分析。因此流式数据对企业越来越重要,因为它能让企业具有竞争优势。事件发生后,当下的见解会立即变得有价值,随着时间的流逝其价值会迅速下降。

物联网、金融、网络安全到零售,实时分析、行动能力已经成为多个领域 SLA 的关键要素,企业正在将流式数据与数据处理引擎和框架结合在一起来创建流数据应用程序。这类名词有很多,实时分析、流分析、复杂事件处理(CEP)、实时流分析和事件处理等。

图一 : 数据的价值随着时间的推移而减少

引自: Perishable insights, Mike Gualtieri, Forrester

谈到流式处理,很多企业首先就想到一些单一的流式处理组件,诸如 FlinkNifi 等。但是这并没有从全链路实现流式应该做哪些规划、准备的角度进行思考,在《2020 Planning Guide for Data Management》报告中, Gartner 给出了一个很好的流数据处理的全链路参考架构和推荐组件,我们应该结合各自企业现在的场景或者未来可能遇到的挑战进行架构设计和组件选择,尽量选择相对成熟的组件和技术,降低风险以及使用和运维成本。Amazon Kinesis Data Analytics 就是其中流式处理分析的推荐组件之一。

图二: Stream-Processing Architectural Components

相关文章