与其他 Amazon 服务集成 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

与其他 Amazon 服务集成

虽然您可以使用 Amazon Glue 爬网程序 来填充 Amazon Glue Data Catalog,但有几种 Amazon 服务可以自动与目录集成并为您填充目录。以下各节提供了有关可填充 Data Catalog 的特定用例(由 Amazon 服务提供支持)的更多信息。

Amazon Lake Formation

Amazon Lake Formation 是一项服务,让用户能够在 Amazon 中更轻松地设置安全数据湖。Lake Formation 建立在 Amazon Glue 之上,而 Lake Formation 与 Amazon Glue 共享相同的 Amazon Glue Data Catalog。您可以在 Lake Formation 中注册您的 Amazon S3 数据位置,然后使用 Lake Formation 控制台在 Amazon Glue Data Catalog 中创建数据库和表、定义数据访问策略,并从一个中央位置审核数据湖中的数据访问。您可以使用 Lake Formation 细粒度访问控制来管理现有的数据目录资源和 Amazon S3 数据位置。

凭借在 Lake Formation 中注册的数据,您可以在 IAM 主体、Amazon 账户、Amazon 组织和组织单位之间安全地共享 Data Catalog 资源。

有关使用 Lake Formation 创建 Data Catalog 资源的更多信息,请参阅《Amazon Lake Formation Developer Guide》中的 Creating Data Catalog tables and databases

Amazon Athena

Amazon Athena 使用 Data Catalog 在 Amazon 账户中存储和检索 Amazon S3 数据的表元数据。通过表元数据,Athena 查询引擎可以了解如何查找、读取和处理您要查询的数据。

您可以直接使用 Athena CREATE TABLE 语句填充 Amazon Glue Data Catalog。无需运行爬网程序即可在 Data Catalog 中手动定义和填充架构和分区元数据。

  1. 在 Athena 控制台中创建一个数据库,将表元数据存储在 Data Catalog 中。

  2. 使用 CREATE EXTERNAL TABLE 语句定义数据来源的架构。

  3. 使用 PARTITIONED BY 子句定义任何分区键(前提是您的数据已分区)。

  4. 使用 LOCATION 子句指定存储实际数据文件的 Amazon S3 路径。

  5. 运行 CREATE TABLE 语句。

    此查询根据您定义的架构和分区在 Data Catalog 中创建表元数据,而无需实际爬取数据。

您可以在 Athena 中查询表,该表将使用 Data Catalog 中的元数据来访问和查询 Amazon S3 中的数据文件。

有关更多信息,请参阅《Amazon Athena 用户指南》中的创建数据库和表