为 Iceberg 表生成列统计数据 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 Iceberg 表生成列统计数据

使用 Amazon Glue 控制台或 Amazon CLI 或通过运行 StartColumnStatisticsTaskRun 操作,按照以下步骤配置在 Data Catalog 中生成统计数据的计划。

生成列统计数据
  1. 通过以下网址登录到 Amazon Glue 控制台:https://console.aws.amazon.com/glue/

  2. 选择 Data Catalog 下的

  3. 从列表中选择一个 Iceberg 表。

  4. 操作菜单下依次选择列统计数据按需生成

    您也可以选择页面下半部分的列统计数据选项卡,然后选择生成统计数据按钮。

  5. 生成统计数据页面上,提供统计数据生成详细信息。按照 生成列统计数据 部分中的第 5-7 步操作,为 Iceberg 表配置统计数据生成。

    注意

    Iceberg 表不支持采样选项。

    Amazon Glue 会计算该 Iceberg 表中每列的不重复值的数量,并放入提交到您的 Amazon S3 位置中指定快照 ID 的新 Puffin 文件。