与其他 Amazon 服务集成
虽然您可以使用 Amazon Glue 爬网程序 来填充 Amazon Glue Data Catalog,但有几种 Amazon 服务可以自动与目录集成并为您填充目录。以下各节提供了有关可填充 Data Catalog 的特定用例(由 Amazon 服务提供支持)的更多信息。
Amazon Lake Formation
Amazon Lake Formation 是一项服务,让用户能够在 Amazon 中更轻松地设置安全数据湖。Lake Formation 建立在 Amazon Glue 之上,而 Lake Formation 与 Amazon Glue 共享相同的 Amazon Glue Data Catalog。您可以在 Lake Formation 中注册您的 Amazon S3 数据位置,然后使用 Lake Formation 控制台在 Amazon Glue Data Catalog 中创建数据库和表、定义数据访问策略,并从一个中央位置审核数据湖中的数据访问。您可以使用 Lake Formation 细粒度访问控制来管理现有的数据目录资源和 Amazon S3 数据位置。
凭借在 Lake Formation 中注册的数据,您可以在 IAM 主体、Amazon 账户、Amazon 组织和组织单位之间安全地共享 Data Catalog 资源。
有关使用 Lake Formation 创建 Data Catalog 资源的更多信息,请参阅《Amazon Lake Formation Developer Guide》中的 Creating Data Catalog tables and databases。
Amazon Athena
Amazon Athena 使用 Data Catalog 在 Amazon 账户中存储和检索 Amazon S3 数据的表元数据。通过表元数据,Athena 查询引擎可以了解如何查找、读取和处理您要查询的数据。
您可以直接使用 Athena CREATE TABLE
语句填充 Amazon Glue Data Catalog。无需运行爬网程序即可在 Data Catalog 中手动定义和填充架构和分区元数据。
在 Athena 控制台中创建一个数据库,将表元数据存储在 Data Catalog 中。
使用
CREATE EXTERNAL TABLE
语句定义数据来源的架构。使用
PARTITIONED BY
子句定义任何分区键(前提是您的数据已分区)。使用
LOCATION
子句指定存储实际数据文件的 Amazon S3 路径。运行
CREATE TABLE
语句。此查询根据您定义的架构和分区在 Data Catalog 中创建表元数据,而无需实际爬取数据。
您可以在 Athena 中查询表,该表将使用 Data Catalog 中的元数据来访问和查询 Amazon S3 中的数据文件。
有关更多信息,请参阅《Amazon Athena 用户指南》中的创建数据库和表。