在 Amazon Glue Data Catalog 中创建对象
Amazon Lake Formation 使用 Amazon Glue Data Catalog(Data Catalog)来存储有关数据湖、数据来源、转换和目标的元数据。元数据是与数据集中的底层数据有关的数据。每个 Amazon 账户在每个 Amazon 区域都有一个数据目录。
Data Catalog 中的元数据按三级数据层次结构(包括目录、数据库和表)进行组织。它将各种来源的数据组织到称为目录的逻辑容器中。每个目录都代表来自 Amazon Redshift 数据仓库、Amazon DynamoDB 数据库,以及第三方数据来源(例如 Snowflake、MySQL)和 30 多个外部数据来源(它们通过联合连接器进行集成)的数据。您还可以在 Data Catalog 中创建新目录,以便将数据存储在 S3 表存储桶或 Redshift 托管存储(RMS)中。
表存储有关基础数据的信息,包括架构信息、分区信息和数据位置。数据库是表的集合。Data Catalog 还包含资源链接,这些链接是指向外部账户中共享目录、数据库和表的链接,用于跨账户访问数据湖中的数据。
Data Catalog 是一个包含目录、数据库和表格的嵌套目录对象。通过 Amazon Web Services 账户 ID 来引用,并且是账户和 Amazon Web Services 区域中的默认目录。数据目录使用三级层次结构(目录.数据库.表)来组织表。
目录:Data Catalog 三级元数据层次结构的最顶层。您可以通过联合身份验证在 Data Catalog 中添加多个目录。
数据库:由表和视图组成的元数据层次结构的第二级。在 Amazon Redshift 和 Trino 等许多数据系统中,数据库也被称为架构。
表和视图:Data Catalog 的 3 级数据层次结构的第三级。
Amazon S3 中的所有 Iceberg 表都存储在“目录 ID = Amazon Web Services 账户 ID”的默认 Data Catalog 中。您可以通过联合身份验证在 Amazon Glue Data Catalog 中创建联合目录,用于在 Amazon Redshift、Amazon S3 表类数据存储服务或其他第三方数据来源中存储表的定义。