启用孤立文件删除功能 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

启用孤立文件删除功能

您可以使用 … Amazon Glue 控制台, Amazon CLI,或 Amazon API为数据目录中的 Apache Iceberg 表启用孤立文件删除功能。对于新表,您可以在创建表时选择 Apache Iceberg 表格式并启用孤立文件删除优化器。新表会默认禁用快照保留功能。

Console
启用孤立文件删除功能
  1. 打开 Amazon Glue 控制台,https://console.aws.amazon.com/glue/然后以数据湖管理员、表创建者或已被授予表glue:UpdateTablelakeformation:GetDataAccess权限的用户身份登录。

  2. 在导航窗格的数据目录下,选择

  3. 页面上,选择要启用孤立文件删除功能的 Iceberg 表。

    选择页面下方的 “表格优化” 选项卡,然后从 “操作” 中选择 “启用”、“孤儿文件删除”。

    您也可以从页面右上角的 “操作” 菜单中选择 “优化” 下的 “启用”。

  4. 启用优化页面的优化选项下,选择孤立文件删除

  5. 如果您选择使用默认设置,则所有孤立文件将在 3 天后删除。如果要将孤立文件保留特定的天数,请选择 “自定义设置”

  6. 接下来,选择具有删除孤立文件所需权限的IAM角色。

  7. 如果选择 “自定义设置”,请在 “孤立文件删除配置” 下输入删除文件之前的保留天数。

  8. 选择启用优化

Amazon CLI

为中的 Iceberg 表启用孤立文件删除功能 Amazon Glue,你需要创建一个类型的表优化器orphan_file_deletion并将该enabled字段设置为 true。要为 Iceberg 表创建孤立文件删除优化器,请使用 Amazon CLI,你可以使用以下命令:

aws glue create-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role","enabled":true,"orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3, "location":'S3 location'}}}'\ --type orphan_file_deletion

此命令将为指定的 Iceberg 表创建孤立文件删除优化器。关键参数如下:

  • roleArn — 有权ARN访问 S3 存储桶和 Glue 资源的IAM角色。

  • enabled – 设置为 true 将会启用优化器

  • orphanFileRetentionPeriodInDays — 删除孤立文件之前保留它们的天数(至少 1 天)。

  • type – 设置为 orphan_file_deletion 将会创建孤立文件删除优化器。

该表优化器创建后,将会定期运行孤立文件删除(如果保持启用状态,则会每天删除一次)。您可以使用检查运行情况list-table-optimizer-runsAPI。孤立文件删除作业会识别并删除表的 Iceberg 元数据中未跟踪的文件。

API

调用 CreateTableOptimizer 操作可创建特定表的孤立文件删除优化器。