优化 Iceberg 表的查询性能 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

优化 Iceberg 表的查询性能

Apache Iceberg 是一种面向超大型分析数据集的高性能开放表格式。Amazon Glue 支持计算和更新 Iceberg 表中每列的不重复值(NDV)数量。借助这些统计数据,可以为处理大型数据集的数据工程师和科学家提供更好的查询优化、数据管理和性能效率。

Amazon Glue 会估算 Iceberg 表中每列的不重复值数量,并在 Amazon S3 中将结果存储与 Iceberg 表快照关联的 Puffin 文件中。Puffin 是一种 Iceberg 文件格式,专用于存储索引、统计数据和草图等元数据。通过将草图存储在与快照关联的 Puffin 文件中,可确保事务处理的一致性和 NDV 统计数据的新鲜度。

您可以使用 Amazon Glue 控制台或 Amazon CLI 来配置运行列统计数据生成任务。启动该进程时,Amazon Glue 将在后台启动一个 Spark 作业并更新 Data Catalog 中的 Amazon Glue 表元数据。您可以使用 Amazon Glue 控制台、Amazon CLI 或通过调用 GetColumnStatisticsForTable API 操作来查看列统计数据。

注意

如果使用 Amazon Lake Formation 权限来控制对表的访问权限,则列统计数据任务代入的角色需要拥有表的完全访问权限才能生成统计数据。

另请参阅