AWS Glue 控制台工作流程概述 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

AWS Glue 控制台工作流程概述

利用 AWS Glue,您可以在 AWS Glue 数据目录中存储元数据。您可以使用此元数据来协调转换数据源和加载数据仓库或数据湖的 ETL 作业。以下步骤介绍了一般工作流程以及您在使用 AWS Glue 时所做的一些选择。

注意

您可以执行以下步骤,也可以创建一个工作流来自动执行步骤 1 到步骤 3。有关更多信息,请参阅 Performing Complex ETL Activities Using Workflows in AWS Glue

  1. 使用表定义填充 AWS Glue 数据目录。

    在控制台中,对于持久数据存储,您可以添加一个爬网程序来填充 AWS Glue 数据目录。您可以从表列表或爬网程序列表中启动 Add crawler (添加爬网程序) 向导。您可以选择一个或多个数据存储供爬网程序访问。您也可以创建一个计划来确定运行爬网程序的频率。对于数据流,您可以手动创建表定义并定义流属性。

    (可选) 您可以提供一个推断数据架构的自定义分类器。您可以使用 grok 模式创建自定义分类器。但是,AWS Glue 提供了内置分类器,如果自定义分类器无法识别您的数据,则爬网程序将自动使用内置分类器。在定义爬网程序时,您不必选择分类器。有关 AWS Glue 中的分类器的更多信息,请参阅向爬网程序中添加分类器

    对某些类型的数据存储进行爬网需要一个提供身份验证和位置信息的连接。如果需要,您可以在 AWS Glue 控制台中创建提供此所需信息的连接。

    爬网程序将读取您的数据存储并在 AWS Glue 数据目录中创建数据定义和已命名的表。这些表将组织到您选择的数据库中。您也可以使用手动创建的表填充Data Catalog。通过这种方法,您可以提供架构和其他元数据,从而在Data Catalog中创建表定义。由于此方法可能有点繁琐又容易出错,通常最好是让爬网程序创建表定义。

    有关使用表定义填充 AWS Glue 数据目录的更多信息,请参阅在 AWS Glue 数据目录 中定义表

  2. 定义一个作业,该作业描述数据从源到目标的转换。

    通常,要创建作业,您必须进行以下选择:

    • 从 AWS Glue 数据目录中选择一个表作为作业的源。您的作业使用此表定义访问数据源和解释数据的格式。

    • 从 AWS Glue 数据目录中选择一个表或位置作为作业的目标。您的作业使用此信息访问数据存储。

    • 告知 AWS Glue 生成一个 PySpark 脚本,以将源转换为目标。AWS Glue 将生成用于调用内置转换的代码,以将数据从其源架构转换到目标架构格式。这些转换将执行复制数据、重命名列和筛选数据等操作,以便根据需要转换数据。您可以在 AWS Glue 控制台中修改此脚本。

    有关在 AWS Glue 中定义作业的更多信息,请参阅在 AWS Glue 中编写作业

  3. 运行作业以转换数据。

    您可以按需运行作业,或根据这些触发器类型之一来启动它:

    • 基于 cron 计划的触发器。

    • 基于事件的触发器;例如,另一个作业的成功完成可能启动一个 AWS Glue 作业。

    • 按需启动作业的触发器。

    有关 AWS Glue 中的触发器的更多信息,请参阅使用触发器启动作业和爬网程序

  4. 监控您的已计划的爬网程序和已触发的作业。

    使用 AWS Glue 控制台查看以下内容:

    • 作业运行详细信息和错误。

    • 爬网程序运行详细信息和错误。

    • 有关 AWS Glue 活动的任何通知

    有关在 AWS Glue 中监控爬网程序和作业的更多信息,请参阅运行和监控 AWS Glue