Amazon S3 表类数据存储服务与 Amazon 分析服务集成概述 - Amazon Simple Storage Service
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon S3 表类数据存储服务与 Amazon 分析服务集成概述

要使 Amazon 分析服务可以访问您账户中的表,您可以将 Amazon S3 表存储桶与 Amazon SageMaker 智能湖仓集成。这种集成支持 Amazon 分析服务自动发现和访问您的表数据。您可以使用此集成在以下服务中处理表:

注意

此集成使用 Amazon Glue 和 Amazon Lake Formation 服务,可能会产生 Amazon Glue 请求和存储成本。有关更多信息,请参阅 Amazon Glue 定价

在 S3 表上运行查询需支付额外费用。有关更多信息,请参阅您使用的查询引擎的定价信息。

集成的工作原理

当您在控制台中创建表存储桶时,Amazon S3 会启动以下操作,来将您选择的区域中的表存储桶与 Amazon 分析服务集成:

  1. 创建一个新的 Amazon Identity and Access Management(IAM)服务角色,该角色授予 Lake Formation 访问所有表存储桶的权限。

  2. 使用服务角色,Lake Formation 在当前区域中注册表存储桶。这可让 Lake Formation 管理该区域中所有当前和将来的表存储桶的访问、权限和治理。

  3. s3tablescatalog 目录添加到当前区域中的 Amazon Glue Data Catalog。添加 s3tablescatalog 目录后,就可以在数据目录中填充所有表存储桶、命名空间和表。

注意

这些操作通过 Amazon S3 控制台自动完成。如果您以编程方式执行此集成,则必须手动执行所有这些操作。

您可以为每个 Amazon 区域集成一次表存储桶。完成集成后,所有当前和将来的表存储桶、命名空间和表都将添加到该区域中的 Amazon Glue Data Catalog。

下图显示了 s3tablescatalog 目录如何自动将当前区域中的表存储桶、命名空间和表填充为数据目录中的相应对象。表存储桶以子目录的形式填充。表存储桶中的命名空间以数据库的形式填充到其各自的子目录中。表以表的形式填充到各自的数据库中。

在 Amazon Glue Data Catalog 中表示表资源的方式。
权限的工作原理

我们建议将表存储桶与 Amazon 分析服务集成,以便您可以跨使用 Amazon Glue Data Catalog 作为元数据存储的服务处理表数据。该集成通过 Amazon Lake Formation 支持精细的访问控制。这种安全方法意味着,除了 Amazon Identity and Access Management(IAM)权限外,您还必须向 IAM 主体授予对表的 Lake Formation 权限,然后才能使用这些表。

Amazon Lake Formation 中有两种主要类型的权限:

  • 元数据访问权限控制着在数据目录中创建、读取、更新和删除元数据数据库和表的能力。

  • 基础数据访问权限控制着对数据目录资源指向的基础 Amazon S3 位置读取和写入数据的能力。

Lake Formation 结合使用自己的权限模型和 IAM 权限模型,来控制对数据目录资源和基础数据的访问权限:

  • 为了使访问数据目录资源或基础数据的请求取得成功,请求必须通过由 IAM 和 Lake Formation 进行的权限检查。

  • IAM 权限控制对 Lake Formation 和 Amazon Glue API 以及资源的访问权限,而 Lake Formation 权限控制对数据目录资源、Amazon S3 位置和基础数据的访问权限。

Lake Formation 权限仅适用于授予这些权限的区域,并且主体必须由数据湖管理员或其它具有必要权限的主体授权,才能获得 Lake Formation 权限。

有关更多信息,请参阅《Amazon Lake Formation 开发人员指南》中的 Lake Formation 权限概览

请确保按照将 S3 表类数据存储服务与 Amazon 分析服务集成中的步骤进行操作,以便您拥有访问 Amazon Glue Data Catalog 和表资源以及使用 Amazon 分析服务的相应权限。

后续步骤