删除孤立文件 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

删除孤立文件

Amazon Glue Data Catalog 允许删除 Iceberg 表中的孤立文件。孤立文件是指存在于指定表位置下的 Amazon S3 数据源中,未被 Iceberg 表元数据跟踪,且超过您配置的期限限制的文件。这些孤立文件可能因压缩、分区删除或表重写等操作而不断堆积,占用不必要的存储空间。

Amazon Glue 中的孤立文件删除优化器会扫描表元数据和实际数据文件,识别孤立文件,然后将其删除以回收存储空间。

可以通过在 Data Catalog 中创建孤立文件删除表优化器来启动孤立文件删除。

重要

默认情况下,删除孤立文件会评估整个 Amazon Glue 表位置上的文件。虽然可以配置子前缀来限制评估范围,但必须确保表位置不包含其他数据源或表的文件。如果您的表位置与其他数据源重叠,服务可能会将不相关的文件识别为孤立文件并删除。