填充 AWS Glue 数据目录 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

填充 AWS Glue 数据目录

AWS Glue 数据目录 包含对在 AWS Glue 中用作提取、转换和加载 (ETL) 作业的源和目标的数据的引用。要创建数据仓库或数据湖,您必须对该数据进行编目。AWS Glue 数据目录 是数据的位置、架构和运行时指标的索引。您可以使用 Data Catalog 中的信息创建和监控您的 ETL 作业。Data Catalog 中的信息将存储为元数据表,其中每个表指定单一数据存储。通常,您运行爬网程序来清点数据存储中的数据,但还有其他方法可以将元数据表添加到 Data Catalog 中。有关更多信息,请参阅在 AWS Glue 数据目录 中定义表

以下流程图显示了 AWS Glue 爬网程序如何与数据存储和其他元素交互来填充 Data Catalog。


      工作流程显示 AWS Glue 爬网程序用 5 个基本步骤填充 Data Catalog。

以下是爬网程序如何填充 AWS Glue 数据目录 的一般工作流程:

  1. 爬网程序运行您为推断数据的格式和架构而选择的任何自定义分类器。您为自定义分类器提供代码,它们按您指定的顺序运行。

    第一个成功识别您的数据结构的自定义分类器用于创建架构。将会跳过列表中较低的自定义分类器。如果没有自定义分类器与您的数据的架构匹配,则内置分类符会尝试识别数据的架构。内置分类器的示例是一个可识别 JSON 的分类器。

  2. 爬网程序连接到数据存储。某些数据存储需要使用连接属性才能访问爬网程序。

  3. 将会为您的数据创建推断的架构。

  4. 爬网程序向 Data Catalog 写入元数据。表定义包含有关您的数据存储中的数据的元数据。该表被写入一个充当 Data Catalog 中表的容器的数据库。表的属性包括分类,它是由推断表架构的分类器创建的标签。