发布于: Jan 21, 2022
我们非常高兴地宣布 Amazon EMR 6.5.0 现在包含 Apache Iceberg 版本 0.12。Apache Iceberg 是一种适合于 Amazon S3 中的大型数据集的开放式表格式,它可以为大型表、原子性提交、并发写入和 SQL 兼容表演化提供快速查询性能。借助当前的版本,您可以在采用 Iceberg 表格式的 EMR 集群上使用 Apache Spark 3.1.2。
Apache Iceberg 可以为数据湖中存储的数据提供开源表格式,从而帮助数据工程师管理复杂的挑战,例如在维持查询性能的同时持续管理不断变化的数据集。Iceberg 使您能够:
- 在可添加、删除或修改文件的多个应用程序之间维持表上的事务一致性
原子性完整的写入隔离和多次并发写入, - 实施完整的架构演化,以跟踪表随着时间的推荐出现的变化,
- 发出时间旅行查询,以查询历史数据并验证更新之间的更改,
- 通过分区演化将表组织成灵活的分区布局,支持在查询和数据卷变化时更新分区架构,而无需依赖物理目录,
- 将表回滚到以前版本,以快速纠正问题并将表返回到已知的正常状态,
- 对大型数据集等执行高级计划和筛选高能查询
包含 Apache Iceberg 的 Amazon EMR 版本 6.5.0 现已在由光环新网运营的亚马逊云科技中国(北京)区域和由西云数据运营的亚马逊云科技中国(宁夏)区域中推出。