为 Iceberg 表生成列统计数据 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

为 Iceberg 表生成列统计数据

按照以下步骤配置计划,使用 Amazon Glue 控制台或 Amazon CLI 或运行StartColumnStatisticsTaskRun操作在数据目录中生成统计信息。

生成列统计数据
  1. 登录 Amazon Glue 控制台,网址为https://console.aws.amazon.com/glue/

  2. 选择 Data Catalog 下的

  3. 从列表中选择一个 Iceberg 表。

  4. 操作菜单下依次选择列统计数据按需生成

    您也可以选择页面下半部分的列统计数据选项卡,然后选择生成统计数据按钮。

  5. 生成统计数据页面上,提供统计数据生成详细信息。按照一按计划生成列统计信息节中的步骤 6-11 配置 Iceberg 表统计数据生成时间表。

    您也可以选择按需生成列统计信息,方法是按照中的说明进行操作 按需生成列统计数据

    注意

    Iceberg 表不支持采样选项。

    Amazon Glue 计算提交到您的 Amazon S3 位置中指定快照 ID 的新 Puffin 文件的 Iceberg 表中每列的不同值的数量。