在中创建对象 Amazon Glue Data Catalog - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在中创建对象 Amazon Glue Data Catalog

Amazon Lake Formation 使用 Amazon Glue Data Catalog (数据目录)存储有关数据湖、数据源、转换和目标的元数据。元数据是与数据集中的底层数据有关的数据。每个 Amazon 账户在每个 Amazon 区域都有一个数据目录。

数据目录中的元数据按三级数据层次结构进行组织,包括目录、数据库和表。它将来自各种来源的数据组织到称为目录的逻辑容器中。每个目录都代表来自 Amazon Redshift 数据仓库、 Amazon DynamoDB 数据库和第三方数据源(例如 Snowflake、MySQL)和 30 多个外部数据源的数据,这些数据源通过联合连接器集成。您还可以在数据目录中创建新目录,将数据存储在 S3 表存储桶或 Redshift 托管存储 (RMS) 中。

表存储有关基础数据的信息,包括架构信息、分区信息和数据位置。数据库是表的集合。数据目录还包含资源链接,这些链接是指向外部账户中共享目录、数据库和表的链接,用于跨账户访问数据湖中的数据。

数据目录是一个包含目录、数据库和表格的嵌套目录对象。它由 Amazon Web Services 账户 ID 引用,是账户和账户中的默认目录 Amazon Web Services 区域。数据目录使用三级层次结构(catalog.database.table)来组织表。

  • 目录-数据目录三级元数据层次结构的最顶层。您可以通过联合在数据目录中添加多个目录。

  • 数据库-由表和视图组成的元数据层次结构的第二级。在 Amazon Redshift 和 Trino 等许多数据系统中,数据库也被称为架构。

  • 表和视图-数据目录 3 级数据层次结构的第三级。

Amazon S3 中的所有 Iceberg 表都存储在目录 ID = Amazon Web Services 账户 ID 的默认数据目录中。您可以通过联合身份在其中创建联合目录 Amazon Glue Data Catalog ,用于存储 Amazon Redshift、Amazon S3 表存储或其他第三方数据源中的表定义。