删除孤立文件
Amazon Glue Data Catalog 允许删除 Iceberg 表中的孤立文件。孤立文件是指存在于指定表位置下的 Amazon S3 数据源中,未被 Iceberg 表元数据跟踪,且超过您配置的期限限制的文件。这些孤立文件可能因压缩、分区删除或表重写等操作而不断堆积,占用不必要的存储空间。
Amazon Glue 中的孤立文件删除优化器会扫描表元数据和实际数据文件,识别孤立文件,然后将其删除以回收存储空间。
可以通过在 Data Catalog 中创建孤立文件删除表优化器来启动孤立文件删除。
重要
默认情况下,删除孤立文件会评估整个 Amazon Glue 表位置上的文件。虽然可以配置子前缀来限制评估范围,但必须确保表位置不包含其他数据源或表的文件。如果您的表位置与其他数据源重叠,服务可能会将不相关的文件识别为孤立文件并删除。