Amazon Glue 中的数据目录和爬网程序 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Glue 中的数据目录和爬网程序

Amazon Glue Data Catalog 包含对在 Amazon Glue 中用作提取、转换和加载 (ETL) 作业的源和目标的数据的引用。要创建数据仓库或数据湖,您必须对该数据进行编目。Amazon Glue Data Catalog 是数据的位置、架构和运行时指标的索引。您可以使用数据目录中的信息创建和监控您的 ETL 作业。数据目录中的信息将存储为元数据表,其中每个表指定单一数据存储。通常,您运行爬网程序来清点数据存储中的数据,但还有其他方法可以将元数据表添加到数据目录中。有关更多信息,请参阅Amazon Glue 表

以下流程图显示了 Amazon Glue 爬网程序如何与数据存储和其他元素交互来填充数据目录。


      工作流程显示 Amazon Glue 爬网程序用 5 个基本步骤填充数据目录。

以下是爬网程序如何填充 Amazon Glue Data Catalog 的一般工作流程:

  1. 爬网程序运行您为推断数据的格式和架构而选择的任何自定义分类器。您为自定义分类器提供代码,它们按您指定的顺序运行。

    第一个成功识别您的数据结构的自定义分类器用于创建架构。将会跳过列表中较低的自定义分类器。

  2. 如果没有自定义分类器与您的数据的架构匹配,则内置分类符会尝试识别数据的架构。内置分类器的示例是一个可识别 JSON 的分类器。

  3. 爬网程序连接到数据存储。某些数据存储需要使用连接属性才能访问爬网程序。

  4. 将会为您的数据创建推断的架构。

  5. 爬网程序向数据目录写入元数据。表定义包含有关您的数据存储中的数据的元数据。该表被写入一个充当数据目录中表的容器的数据库。表的属性包括分类,它是由推断表架构的分类器创建的标签。