在 Amazon Glue Data Catalog 中创建 Amazon S3 表类数据存储服务目录 - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

在 Amazon Glue Data Catalog 中创建 Amazon S3 表类数据存储服务目录

Amazon S3 表类数据存储服务提供专门针对分析工作负载进行优化的 S3 存储,可提高查询性能,同时降低成本。S3 表类数据存储服务中的数据存储在新的存储桶类型中:表存储桶,它将表存储为子资源。S3 表内置支持 Apache Iceberg 标准,让您可以使用 Apache Spark 等常用查询引擎轻松查询 Amazon S3 表类数据存储服务存储桶中的表格数据。

您可以将 Amazon S3 表类数据存储服务存储桶和表与 Amazon Glue Data Catalog(Data Catalog)集成,并从 Lake Formation 控制台或使用服务 API 将该目录注册为 Lake Formation 数据位置。当您的组织在 Data Catalog 中管理数据并将向 Lake Formation 注册数据位置时,您可以使用 Lake Formation 来控制对数据集的访问。

您可以使用基于标签的访问控制和命名资源方法对联合数据库应用 Lake Formation 权限,并在多个 Amazon Web Services 账户、Amazon Organizations 和组织单元(OU)之间共享权限。您也可以直接与其他账户的 IAM 主体共享联合数据库。

有关更多信息,请参阅《Amazon Simple Storage Service 用户指南》中的将 Amazon S3 表类数据存储服务与 Amazon 分析服务配合使用

Data Catalog 和 Lake Formation 集成的工作原理

当您将 S3 表目录与 Data Catalog 和 Lake Formation 集成时,Amazon Glue 服务会在您的账户中特定于您的 Amazon Web Services 区域的默认数据目录中创建一个名为 s3tablescatalog 的联合目录。该集成按以下方式将您账户和 Amazon Web Services 区域中的所有 Amazon S3 表类数据存储服务存储桶资源映射到联合目录下:

  • Amazon S3 表类数据存储服务存储桶成为 Data Catalog 中的多级目录。

  • 关联的 Amazon S3 命名空间在 Data Catalog 中注册为数据库。

  • 表存储桶中的 Amazon S3 表类数据存储服务成为 Data Catalog 中的表。

S3 表和 Amazon Glue Data Catalog 之间的对象映射。

与 Lake Formation 集成后,您可以在表存储桶目录中创建 Apache Iceberg 表,并通过 Amazon Athena、Amazon EMR 等集成 Amazon 分析引擎以及第三方分析引擎访问这些表。