使用列统计数据 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用列统计数据

无需设置其他数据管道,即可为 Parquet、ORC、JSON、ION、CSV 和 XML 等数据格式的 Amazon Glue Data Catalog 表计算列级别的统计数据。借助列统计数据,您可以深入洞察列中的值,从而了解数据特征。Data Catalog 支持为列值生成统计数据,例如最小值、最大值、空值总计、非重复值总计、值的平均长度和真实值的总出现次数等。

Amazon Redshift 和 Amazon Athena 等 Amazon 分析服务可以使用这些列统计数据来生成查询执行计划,并选择可提高查询性能的最优计划。

您可以使用 Amazon Glue 控制台或 Amazon CLI 来配置运行列统计数据生成任务。启动该进程时,Amazon Glue 将在后台启动一个 Spark 作业并更新 Data Catalog 中的 Amazon Glue 表元数据。您可以使用 Amazon Glue 控制台、Amazon CLI 或通过调用 GetColumnStatisticsForTable API 操作来查看列统计数据。

注意

如果您使用 Lake Formation 权限来控制对表的访问权限,则列统计数据任务代入的角色需要拥有完全的表访问权限才能生成统计数据。

以下视频说明了如何使用列统计信息来提高查询性能。