本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
为 Iceberg 表生成列统计数据
使用 Amazon Glue 控制台或 Amazon CLI 或通过运行 StartColumnStatisticsTaskRun 操作,按照以下步骤配置在 Data Catalog 中生成统计数据的计划。
生成列统计数据
-
通过以下网址登录到 Amazon Glue 控制台:https://console.aws.amazon.com/glue/
。 -
选择 Data Catalog 下的表。
-
从列表中选择一个 Iceberg 表。
-
在操作菜单下依次选择列统计数据、按需生成。
您也可以选择表页面下半部分的列统计数据选项卡,然后选择生成统计数据按钮。
-
在生成统计数据页面上,提供统计数据生成详细信息。按照 生成列统计数据 部分中的第 5-7 步操作,为 Iceberg 表配置统计数据生成。
注意
Iceberg 表不支持采样选项。
Amazon Glue 会计算该 Iceberg 表中每列的不重复值的数量,并放入提交到您的 Amazon S3 位置中指定快照 ID 的新 Puffin 文件。