发布于: Nov 15, 2022
Amazon Virtual Public Cloud (VPC) 推出三项新功能,使您能够更快速、轻松且更经济实惠地在 Amazon VPC 流日志上运行分析。首先,VPC 流日志现在传输至采用 Apache Parquet 文件格式的 Amazon S3 中。其次,它们可以存储在采用 Hive 兼容前缀的 S3 中。第三,VPC 流日志可以按小时分区文件传输。当您选择 S3 作为 VPC 流日志的目标时,所有这些功能均可用。
由于 Parquet 文件采用紧凑的列格式,因此,以 Apache Parquet 格式存储的 VPC 流日志上的查询更加高效。此外,您可以通过使用 Amazon Athena 和 Amazon Elastic Map Reduce(EMR)之类的工具节省查询成本,因为您的查询运行更快并且需要使用 Parquet 文件扫描的数据量更少。得益于可对 Parquet 格式的文件进行更好的压缩,您可以节省高达 25% 的 S3 存储成本,并且无需构建和管理 Apache Parquet 转换应用程序。Hive 兼容前缀使您可以更轻松地发现新数据并将其加载到 Hive 工具中,并且按小时分区的日志文件可以让您更高效地查询特定时间间隔内的日志。
若要开始使用,请先创建新的 VPC 流日志并以 S3 作为目标,然后指定 Parquet 格式、Hive 兼容前缀和/或按小时分区的文件的传输选项。此功能可通过亚马逊云科技管理控制台、Amazon 命令行界面(Amazon CLI)和 Amazon 软件开发工具包(Amazon SDK)使用。要了解更多信息,请参阅文档并阅读博客文章。有关 VPC 流日志中采用 Apache Parquet 格式的日志传输定价,请参阅 CloudWatch Logs 定价页面。
Amazon VPC 流日志对 Apache Parquet 的支持现已在由光环新网运营的亚马逊云科技中国(北京)区域和由西云数据运营的亚马逊云科技中国(宁夏)区域正式推出。