本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
填充 Amazon Glue Data Catalog
您可以使用以下方法填充 Amazon Glue Data Catalog:
-
Amazon Glue 爬网程序 – Amazon Glue 爬网程序 可以自动发现数据库、数据湖和流式传输数据等数据来源并对其进行分类。爬网程序可以自动发现和推断各种数据来源的元数据,因此是填充 Data Catalog 的最常用和最推荐的方法。
-
手动添加元数据 – 您可以使用 Amazon Glue 控制台、Lake Formation 控制台、Amazon CLI 或 Amazon Glue API 手动定义数据库、表和连接详细信息,并将其添加到 Data Catalog 中。当您要对无法爬取的数据来源进行分类时,手动输入非常有用。
-
与其他 Amazon 服务集成 – 您可以使用来自 Amazon Lake Formation 和 Amazon Athena 等服务的元数据填充 Data Catalog。这些服务可以在 Data Catalog 中发现和注册数据来源。
-
从现有元数据存储库中填充 – 如果您有 Apache Hive Metastore 这样的现有元数据存储,则可以使用 Amazon Glue 将该元数据导入到 Data Catalog 中。有关更多信息,请参阅 GitHub 上的在 Hive 元存储和 Amazon Glue Data Catalog 之间迁移
。