将数据引入 Amazon Glue Data Catalog
您可以在 Amazon Glue Data Catalog(Data Catalog)中创建联合目录,并统一 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的数据。您还可以整合来自运营数据库(例如 Amazon DynamoDB)和第三方数据来源(例如 PostgreSQL、Google BigQuery、MySQL 等)的数据。Data Catalog 提供了一个集中式元数据存储库,使管理和发现不同系统中的数据变得更加容易。
Data Catalog 通过联合连接器与 30 多个外部数据来源集成。通过这种集成,您可以查询来自这些外部来源的数据,而不必先构建数据管道来将数据摄取到 Amazon。
对外部数据进行编目后,您可以使用 Amazon Lake Formation 集中管理 Data Catalog 中的数据访问权限。数据湖管理员可以使用基于标签的访问控制(LF 标签)和命名资源方法,向同一账户内或跨账户的其他 IAM 主体(用户或角色)授予精细访问权限。
通过使用 LF 标签,数据管理员可以根据域和敏感度级别等属性合理组织资源,从而简化权限管理,同时确保分析和机器学习服务(包括 Athena、Amazon EMR、Amazon Glue 或 Redshift Spectrum)之间的一致访问控制。
Data Catalog 提供了以下方法来管理数据以及外部数据集和外部元存储的权限:
-
将 Amazon Redshift 数据仓库中的数据引入 Amazon Glue Data Catalog:向 Data Catalog 注册现有的 Amazon Redshift 命名空间或集群,然后在 Data Catalog 中创建多级联合目录。
您可以使用任何与 Apache Iceberg REST 目录 OpenAPI 规格兼容的查询引擎(例如,Amazon EMR Serverless 和 Amazon Athena)访问您的数据。
-
从外部数据来源联合身份到 Data Catalog:使用 Amazon Glue 连接将 Data Catalog 连接到外部数据来源,并使用 Lake Formation 创建联合目录来集中管理数据集的访问权限。无需将元数据迁移到 Data Catalog。
-
将 Amazon S3 表类数据存储服务存储桶与数据目录(预览版)集成:您可以通过 Lake Formation 控制台或使用 Amazon Glue API 操作将 Amazon S3 表类数据存储服务作为 Data Catalog 对象来发布和编目,并将该目录注册为 Lake Formation 数据位置。
-
创建目录来管理 Data Catalog 中的 Amazon Redshift 表:您现在可能没有可用的 Amazon Redshift 创建器集群或 Amazon Redshift 数据共享,但想使用 Data Catalog 来创建和管理 Amazon Redshift 表。首先,您可以使用
glue:CreateCatalogAPI 操作创建 Amazon Glue 托管目录,也可以将目录类型设置为Managed并将Catalog source设置为 Redshift,然后通过 Amazon Lake Formation 控制台来创建托管目录。 -
使用 Data Catalog 发布 Amazon Redshift 数据共享:将 Amazon Redshift 数据共享发布到 Data Catalog,使用 Lake Formation 集中管理数据共享的数据访问并限制用户访问。
您可以使用 Amazon Redshift Spectrum 查询数据。
-
将 Data Catalog 连接到外部 Hive 元存储:使用 Lake Formation 将 Data Catalog 连接到外部元存储以管理 Amazon S3 中数据集的访问权限。无需将元数据迁移到 Data Catalog。
-
将 Lake Formation 与 Amazon Data Exchange 集成:Lake Formation 支持通过 Amazon Web Services Data Exchange 对您的数据进行许可访问。如果您想对 Lake Formation 数据授予许可,请参阅《Amazon Web Services Data Exchange 用户指南》中的什么是 Amazon Web Services Data Exchange?。