Amazon Data Firehose 是捕获、转换并将流数据加载到各种数据存储和分析工具中的一种最轻松的方式。Firehose 是一项完全托管式服务,可以轻松捕获和转换数十万来源中的大量流数据并将其加载到 Amazon S3、Amazon Redshift、Amazon OpenSearch Service(前身为 Amazon Elasticsearch Service)、Amazon Kinesis Data Analytics、通用 HTTP 终端节点以及 Datadog、New Relic、MongoDB 和 Splunk 等服务提供商,从而实现近乎实时的分析和洞察。
主要功能
简单易用
只需在 亚马逊云科技管理控制台中单击几下,您就可以启动 Amazon Data Firehose 并创建 Firehose 流,以便将数据加载到 Amazon S3、Amazon Redshift、Amazon OpenSearch Service、HTTP 终端节点、Datadog、New Relic、MongoDB 或 Splunk 中。您可以通过将数据写入 API 来将数据发送到 Firehose 流,也可以使用 Firehose 流从 Kinesis Data Stream 中使用。然后,Firehose 会将数据持续加载到 Amazon S3、Amazon Redshift 和 Amazon OpenSearch Service 中。
按需付费定价
您只需为通过 Firehose 传输的数据量付费。无最低费用,无预先承诺。
安全
Amazon Data Firehose 始终使用 HTTPS 对传输中的数据进行加密,支持静态加密,并为您提供可让您的数据在上传到目标后自动加密的选项。
弹性扩展
根据您的摄取模式,当您的 Firehose 流出现过度节流时,Firehose 服务可能会主动提高限制。
内联 JSON 到 Parquet 或 ORC 格式的转换
您可以使用 Amazon Athena、Amazon Redshift Spectrum、Amazon EMR 和其他基于 Hadoop 的工具来优化 Apache Parquet 和 Apache ORC 等列式数据格式,从而实现经济高效的存储和分析。Amazon Data Firehose 可以先将传入数据的格式从 JSON 转换为 Parquet 或 ORC 格式,然后再将这些数据存储到 Amazon S3 中,从而节省存储和分析成本。了解详情 »
在向 Amazon S3 传输期间对数据进行动态分区
Firehose 可以按“customer_id”或“transaction_id”等数据中的密匙持续对流数据进行分区,并可以将按这些密匙分组的数据传输到相应的 Amazon S3 前缀中,从而让您可以更轻松地使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对 Amazon S3 中的流数据执行高性能、经济高效的分析。
近乎实时地加载数据
您可以指定批处理大小或批处理间隔,从而控制数据上传到目标的速度。例如,如果您想要在将新数据发送到 Firehose 流后 60 秒内接收新数据,则可以将批处理间隔设置为 60 秒。此外,您还可以指定是否压缩数据。本服务支持包括 GZip 和 Snappy 在内的常用压缩算法。在上传之前对数据进行批处理和压缩,可以控制在目标接收新数据的速度。
自定义数据转换
您可以配置 Amazon Data Firehose 以便准备流数据,然后再将这些数据加载到数据存储中。只需在亚马逊云科技管理控制台的 Amazon Data Firehose 流配置选项卡中选择一个 Amazon Lambda 函数即可实现这一目的。 Amazon Data Firehose 会自动将该函数应用到每一项数据输入记录,并将转换后的数据加载到目标中。 Amazon Data Firehose 提供各种预构建的 Lambda 蓝图,可以将 Apache 日志和系统日志等常见数据来源转换为 JSON 和 CSV 格式。您可以在不做任何更改的情况下使用这些预构建的蓝图,也可以进一步自定义这些蓝图或者编写自己的自定义函数。您也可以对 Amazon Data Firehose 进行配置,使其自动重试失败的作业并备份原始流数据。了解详情 »
支持多个目标
Amazon Data Firehose 目前支持将 Amazon S3、Amazon Redshift、Amazon OpenSearch Service、HTTP 终端节点、Datadog、New Relic、MongoDB 和 Splunk 作为目标。您可以指定要将数据加载到的目标 Amazon S3 存储桶、Amazon Redshift 集群、Amazon OpenSearch Service 域、通用 HTTP 终端节点或服务提供商。