优化 Iceberg 表 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

优化 Iceberg 表

Amazon Glue 支持多个表优化选项,以增强 Amazon 分析引擎和作业使用的 Apache Iceberg 表的管理和性能。ETL这些优化器可提高存储空间利用效率、提升查询性能,并实现有效的数据管理。有三种类型的表优化器可供选择: Amazon Glue

  • 压缩 – 数据压缩功能可压缩小数据文件,以减少存储空间使用量并提升读取性能。此功能会合并和重写数据文件以移除过时数据,并将碎片数据合并到更大、更高效的文件中。可以根据需要配置为自动运行或手动触发压缩。

  • 快照保留 – 快照是带有时间戳的 Iceberg 表版本。借助快照保留配置,客户可以强制规定快照保留期限和要保留的快照数量。配置快照保留优化器可以移除不必要的旧快照及其相关底层文件,从而帮助管理存储开销。

  • 孤立文件删除 – 孤立文件是指不再被 Iceberg 表元数据引用的文件。这些文件可能会随着时间的推移而累积,尤其是在表删除或ETL任务失败等操作之后。启用孤立文件删除功能可以 Amazon Glue 定期识别和删除这些不必要的文件,从而释放存储空间。

您可以使用 Amazon Glue 控制台、或操作为数据目录中的单个 Iceberg 表启用或禁用压缩、 Amazon CLI快照保留和孤立文件删除优化器。 Amazon Glue API

以下视频演示了如何在中为 Iceberg 表配置优化器。 Amazon Glue 爬网程序