管理 Data Catalog - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

管理 Data Catalog

Amazon Glue Data Catalog 是一个中央元数据存储库,用于存储 Amazon S3 数据集的结构和操作元数据。高效管理 Data Catalog 对于维护数据质量、性能、安全性和治理至关重要。

通过了解和应用这些 Data Catalog 管理实践,您可以确保随着数据环境的发展,您的元数据仍能保持准确、高性能、安全且治理良好。

本节介绍 Data Catalog 管理的以下方面:

  • 更新表架构和分区随着数据的发展,您可能需要更新 Data Catalog 中定义的表架构或分区结构。有关如何使用 Amazon Glue ETL 以编程方式进行这些更新的更多信息,请参阅使用 Amazon Glue ETL 任务在 Data Catalog 中更新架构并添加新分区

  • 管理列统计数据:准确的列统计数据有助于优化查询计划并提高性能。有关如何生成、更新和管理列统计数据的更多信息,请参阅使用列统计数据优化查询性能

  • 加密 Data Catalog 要保护敏感元数据,可以使用 Amazon Key Management Service(Amazon KMS)加密 Data Catalog。本节介绍如何启用和管理 Data Catalog 的加密。

  • 使用 Amazon Lake Formation 保护 Data Catalog Lake Formation 提供了一种全面的数据湖安全和访问控制方法。您可以使用 Lake Formation 来保护和治理对 Data Catalog 和底层数据的访问。