将亚马逊 Redshift 数据引入 Amazon Glue Data Catalog - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将亚马逊 Redshift 数据引入 Amazon Glue Data Catalog

您可以在(数据目录)中管理 Amazon Redshift 数据仓库中的 Amazon Glue Data Catalog 分析数据,并统一亚马逊 S3 数据湖和亚马逊 Redshift 数据仓库。Amazon Redshift 是一项完全托管的 PB 级云端数据仓库服务。 Amazon Amazon Redshift 数据仓库是一个由称作节点的各种计算资源构成的集合,这些节点已整理到名为集群的组中。每个集群运行一个 Amazon Redshift 引擎并包含一个或多个数据库。

在 Amazon Redshift 中,您可以创建 Amazon Redshift 预配置的集群和无服务器命名空间,然后将其注册到数据目录中。通过这样做,您可以统一亚马逊 Redshift 托管存储 (RMS) 和 Amazon S3 存储桶中的数据,并访问来自兼容 Apache Iceberg 的分析引擎的数据。

通过注册命名空间和集群,您可以提供对数据的访问权限,而无需对其进行复制或移动。有关在 Amazon Redshift 中注册集群和命名空间的更多信息,请参阅将 Amazon Redshi ft 集群和命名空间注册到。 Amazon Glue Data Catalog

在 Amazon Redshift 中,您可以通过数据共享或向数据目录注册命名空间和集群来执行数据共享。对于在单个数据库对象级别运行的数据共享,您必须为每个表或视图启用共享。相比之下,命名空间发布功能在集群或命名空间级别。在数据目录中注册集群或命名空间时,其中的所有数据库和表都会自动共享,而无需为单个对象配置共享。

在数据目录中,您可以为每个命名空间或集群创建联合目录。当目录指向数据目录之外的实体时,该目录被称为联合目录。Amazon Redshift 命名空间中的表和视图在数据目录中作为单个表列出。您可以与同一账户中的选定 IAM 委托人和 SAML 用户共享联合目录中的数据库和表,也可以通过 Lake Formation 在其他账户中共享数据库和表。您还可以添加行和列筛选表达式,以限制对某些数据的访问。有关更多信息,请参阅 Lake Formation 中的数据筛选和单元格级别安全性

数据目录支持三级元数据层次结构,包括目录、数据库和表(和视图)。当您在数据目录中注册命名空间时,Amazon Redshift 数据层次结构将映射到数据目录的 3 级层次结构,如下所示:

  • Amazon Redshift 命名空间成为数据目录中的多级目录。

  • 关联的 Amazon Redshift 数据库在数据目录中注册为目录。

  • Amazon Redshift 架构成为数据目录中的一个数据库。

  • Amazon Redshift 表将变为数据目录中的一个表。

显示 Amazon Redshift 命名空间和数据目录之间的目录级映射。

有了这个三级元数据层次结构,您可以在数据目录中使用由三部分组成的表示法—— “catalog1/catalog2.database.table” 来访问 Amazon Redshift 表。此外,数据团队可以保持与 Amazon Redshift 在数据目录账户中组织表时使用的组织结构相同。

在 Lake Formation 中,您可以使用对数据目录资源的精细访问控制,安全地管理来自 Amazon Redshift 的数据。通过这种集成,您可以使用通用访问控制机制管理、保护和查询来自单个目录的分析数据。

有关限制,请参阅将 Amazon Redshift 数据仓库数据引入的限制 Amazon Glue Data Catalog

主要优势

将 Amazon Redshift 集群和命名空间注册到 Amazon Glue Data Catalog 并统一亚马逊 S3 数据湖和 Amazon Redshift 数据仓库中的数据,可以带来以下好处:

  • 统一的查询体验 — 使用任何与 Apache Iceberg 兼容的查询引擎(例如亚马逊 EMR Serverless 和 Amazon Athena)查询您的 Amazon Redshift 托管数据和 Amazon S3 存储桶中的数据,无需移动或复制数据。

  • 跨服务一致的数据访问 ——当访问来自不同 Amazon 分析服务的相同联合数据源时,您无需更新数据管道中的数据库和表名称,因为数据源已注册在数据目录中。

  • 精细访问控制-您可以应用 Lake Formation 权限,使用精细的访问控制权限来管理对联合数据源的访问权限。

角色和责任

角色 责任
亚马逊 Redshift 制作者集群管理员

在数据目录中注册集群或命名空间。

Lake Formation 数据湖管理员

接受集群或命名空间邀请,创建联合目录,并向其他委托人授予对联合目录的访问权限。

Lake Formation 只读管理员 发现联合目录,查询联合目录中的亚马逊 Redshift 表。
数据传输角色

Amazon Redshift 假设代表您向亚马逊 S3 存储桶传输数据和从亚马逊S3存储桶传输数据。

以下是为用户提供对 Amazon Redshift 命名空间的访问权限的高级步骤:

  1. 在 Amazon Redshift 中,创建者集群管理员在数据目录中注册集群或命名空间。

  2. 数据湖管理员接受 Amazon Redshift 创建器集群管理员的命名空间邀请,并在数据目录中创建联合目录。

    完成此步骤后,您可以在数据目录中管理 Amazon Redshift 命名空间目录。

  3. 向用户授予目录、数据库和表的权限。您可以与同一账户或其他账户中的用户共享整个命名空间目录或表的子集。