填充 Amazon Glue Data Catalog - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

填充 Amazon Glue Data Catalog

您可以使用以下方法填充 Amazon Glue Data Catalog:

  • Amazon Glue 爬网程序 – Amazon Glue 爬网程序 可以自动发现数据库、数据湖和流式传输数据等数据来源并对其进行分类。爬网程序可以自动发现和推断各种数据来源的元数据,因此是填充 Data Catalog 的最常用和最推荐的方法。

  • 手动添加元数据 – 您可以使用 Amazon Glue 控制台、Lake Formation 控制台、Amazon CLI 或 Amazon Glue API 手动定义数据库、表和连接详细信息,并将其添加到 Data Catalog 中。当您要对无法爬取的数据来源进行分类时,手动输入非常有用。

  • 与其他 Amazon 服务集成 – 您可以使用来自 Amazon Lake Formation 和 Amazon Athena 等服务的元数据填充 Data Catalog。这些服务可以在 Data Catalog 中发现和注册数据来源。

  • 从现有元数据存储库中填充 – 如果您有 Apache Hive Metastore 这样的现有元数据存储,则可以使用 Amazon Glue 将该元数据导入到 Data Catalog 中。有关更多信息,请参阅 GitHub 上的在 Hive 元存储和 Amazon Glue Data Catalog 之间迁移