在 AWS Glue 中编写作业 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

在 AWS Glue 中编写作业

作业是用于在 AWS Glue 中执行提取、转换和加载 (ETL) 工作的业务逻辑。当您启动作业时,AWS Glue 运行一个从源中提取数据、转换数据并将其加载到目标中的脚本。您可以在 AWS Glue 控制台的 ETL 部分中创建作业。有关更多信息,请参阅在 AWS Glue 控制台上处理作业

下图总结了在 AWS Glue 中编写作业所涉及的基本工作流程和步骤:


      演示如何通过 6 个基本步骤使用 AWS Glue 编写作业的工作流程。

工作流程概述

当您编写作业时,您将提供有关数据源、目标和其他信息的详细信息。结果是生成的 Apache Spark API (PySpark) 脚本。然后,您可以在 AWS Glue 数据目录 中存储您的作业定义。

下面介绍了在 AWS Glue 控制台中编写作业的全过程:

  1. 您可以为您的作业选择数据源。表示数据源的表必须在您的 Data Catalog 中定义。如果源需要连接,连接也会在您的作业中被引用。如果您的作业需要多个数据源,您可以稍后通过编辑脚本来添加这些数据源。

  2. 您可以选择作业的数据目标。表示数据目标的表可以在 Data Catalog 中定义,或者您的作业可以在运行时创建目标表。在编写作业时,您会选择目标位置。如果目标需要连接,连接也会在您的作业中被引用。如果您的作业需要多个数据目标,您可以稍后通过编辑脚本来添加这些数据目标。

  3. 通过为作业和生成的脚本提供参数,您可以自定义作业处理环境。有关更多信息,请参阅在 中添加作业AWS Glue

  4. 最初,AWS Glue 会生成一个脚本,但您也可以编辑此脚本以添加源、目标和转换。有关转换的更多信息,请参阅 内置转换

  5. 您可以指定如何按需、按照基于时间的计划或按照事件调用您的作业。有关更多信息,请参阅使用触发器启动作业和爬网程序

  6. 根据您的输入,AWS Glue 生成 PySpark 或 Scala 脚本。您可以根据您的业务需求定制脚本。有关更多信息,请参阅在 AWS Glue 中编辑脚本