优化压缩 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

优化压缩

使用 Apache Iceberg 等开放表格式的 Amazon S3 数据湖会将数据存储为 S3 对象。如果数据湖表中包含成千上万个 Amazon S3 小对象,则会增加元数据开销并影响读取性能。Amazon Glue Data Catalog 为 Iceberg 表提供了托管式压缩功能,可将小对象压缩成较大的对象,以便提高 Amazon Athena 和 Amazon EMR 等 Amazon 分析服务以及 Amazon Glue ETL 作业的读取性能。Data Catalog 会在不干扰并发查询的情况下执行压缩,并且仅支持 Parquet 格式表的压缩。

表优化器会持续监控表分区,并在超过文件数量和文件大小阈值时启动压缩进程。

在 Data Catalog 中,当表或其中的任何分区包含超过 100 个文件时,压缩进程就会启动。每个文件必须小于目标文件大小的 75%。目标文件大小由 write.target-file-size-bytes 表属性定义,如果未显式设置,则默认为 512 MB。

有关限制,请参阅托管式数据压缩的支持的格式和限制