将数据引入 Amazon Glue Data Catalog - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

将数据引入 Amazon Glue Data Catalog

您可以在 Amazon Glue Data Catalog(Data Catalog)中创建联合目录,并统一 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的数据。您还可以整合来自运营数据库(例如 Amazon DynamoDB)和第三方数据来源(例如 PostgreSQL、Google BigQuery、MySQL 等)的数据。Data Catalog 提供了一个集中式元数据存储库,使管理和发现不同系统中的数据变得更加容易。

Data Catalog 通过联合连接器与 30 多个外部数据来源集成。通过这种集成,您可以查询来自这些外部来源的数据,而不必先构建数据管道来将数据摄取到 Amazon。

对外部数据进行编目后,您可以使用 Amazon Lake Formation 集中管理 Data Catalog 中的数据访问权限。数据湖管理员可以使用基于标签的访问控制(LF 标签)和命名资源方法,向同一账户内或跨账户的其他 IAM 主体(用户或角色)授予精细访问权限。

通过使用 LF 标签,数据管理员可以根据域和敏感度级别等属性合理组织资源,从而简化权限管理,同时确保分析和机器学习服务(包括 Athena、Amazon EMR、Amazon Glue 或 Redshift Spectrum)之间的一致访问控制。

Data Catalog 提供了以下方法来管理数据以及外部数据集和外部元存储的权限:

  • 将 Amazon Redshift 数据仓库中的数据引入 Amazon Glue Data Catalog:向 Data Catalog 注册现有的 Amazon Redshift 命名空间或集群,然后在 Data Catalog 中创建多级联合目录。

    您可以使用任何与 Apache Iceberg REST 目录 OpenAPI 规格兼容的查询引擎(例如,Amazon EMR Serverless 和 Amazon Athena)访问您的数据。

  • 从外部数据来源联合身份到 Data Catalog:使用 Amazon Glue 连接将 Data Catalog 连接到外部数据来源,并使用 Lake Formation 创建联合目录来集中管理数据集的访问权限。无需将元数据迁移到 Data Catalog。

  • 将 Amazon S3 表类数据存储服务存储桶与数据目录(预览版)集成:您可以通过 Lake Formation 控制台或使用 Amazon Glue API 操作将 Amazon S3 表类数据存储服务作为 Data Catalog 对象来发布和编目,并将该目录注册为 Lake Formation 数据位置。

  • 创建目录来管理 Data Catalog 中的 Amazon Redshift 表:您现在可能没有可用的 Amazon Redshift 创建器集群或 Amazon Redshift 数据共享,但想使用 Data Catalog 来创建和管理 Amazon Redshift 表。首先,您可以使用 glue:CreateCatalog API 操作创建 Amazon Glue 托管目录,也可以将目录类型设置为 Managed 并将 Catalog source 设置为 Redshift,然后通过 Amazon Lake Formation 控制台来创建托管目录。

  • 使用 Data Catalog 发布 Amazon Redshift 数据共享:将 Amazon Redshift 数据共享发布到 Data Catalog,使用 Lake Formation 集中管理数据共享的数据访问并限制用户访问。

    您可以使用 Amazon Redshift Spectrum 查询数据。

  • 将 Data Catalog 连接到外部 Hive 元存储:使用 Lake Formation 将 Data Catalog 连接到外部元存储以管理 Amazon S3 中数据集的访问权限。无需将元数据迁移到 Data Catalog。

  • 将 Lake Formation 与 Amazon Data Exchange 集成:Lake Formation 支持通过 Amazon Web Services Data Exchange 对您的数据进行许可访问。如果您想对 Lake Formation 数据授予许可,请参阅《Amazon Web Services Data Exchange 用户指南》中的什么是 Amazon Web Services Data Exchange?