本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
启用孤立文件删除功能
您可以使用 … Amazon Glue 控制台, Amazon CLI,或 Amazon API为数据目录中的 Apache Iceberg 表启用孤立文件删除功能。对于新表,您可以在创建表时选择 Apache Iceberg 表格式并启用孤立文件删除优化器。新表会默认禁用快照保留功能。
- Console
-
启用孤立文件删除功能
-
打开 Amazon Glue 控制台,https://console.aws.amazon.com/glue/
然后以数据湖管理员、表创建者或已被授予表 glue:UpdateTable
和lakeformation:GetDataAccess
权限的用户身份登录。 -
在导航窗格的数据目录下,选择表。
在表页面上,选择要启用孤立文件删除功能的 Iceberg 表。
选择页面下方的 “表格优化” 选项卡,然后从 “操作” 中选择 “启用”、“孤儿文件删除”。
您也可以从页面右上角的 “操作” 菜单中选择 “优化” 下的 “启用”。
-
在启用优化页面的优化选项下,选择孤立文件删除。
-
如果您选择使用默认设置,则所有孤立文件将在 3 天后删除。如果要将孤立文件保留特定的天数,请选择 “自定义设置”。
-
接下来,选择具有删除孤立文件所需权限的IAM角色。
-
如果选择 “自定义设置”,请在 “孤立文件删除配置” 下输入删除文件之前的保留天数。
-
选择启用优化。
-
- Amazon CLI
-
为中的 Iceberg 表启用孤立文件删除功能 Amazon Glue,你需要创建一个类型的表优化器
orphan_file_deletion
并将该enabled
字段设置为 true。要为 Iceberg 表创建孤立文件删除优化器,请使用 Amazon CLI,你可以使用以下命令:aws glue create-table-optimizer \ --catalog-id
123456789012
\ --database-nameiceberg_db
\ --table-nameiceberg_table
\ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012
:role/optimizer_role
","enabled":true,"orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3
, "location":'S3 location
'}}}'\ --type orphan_file_deletion此命令将为指定的 Iceberg 表创建孤立文件删除优化器。关键参数如下:
-
roleArn — 有权ARN访问 S3 存储桶和 Glue 资源的IAM角色。
-
enabled – 设置为 true 将会启用优化器
-
orphanFileRetentionPeriodInDays — 删除孤立文件之前保留它们的天数(至少 1 天)。
-
type – 设置为 orphan_file_deletion 将会创建孤立文件删除优化器。
该表优化器创建后,将会定期运行孤立文件删除(如果保持启用状态,则会每天删除一次)。您可以使用检查运行情况
list-table-optimizer-runs
API。孤立文件删除作业会识别并删除表的 Iceberg 元数据中未跟踪的文件。 -
- API
-
调用
CreateTableOptimizer
操作可创建特定表的孤立文件删除优化器。