在 Amazon Glue 中编写作业 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

在 Amazon Glue 中编写作业

作业是用于在 Amazon Glue 中执行提取、转换和加载 (ETL) 工作的业务逻辑。当您启动作业时,Amazon Glue 运行一个从源中提取数据、转换数据并将其加载到目标中的脚本。您可以在 Amazon Glue 控制台的 ETL 部分中创建作业。有关更多信息,请参阅 在 Amazon Glue 控制台上处理作业

下图总结了在 Amazon Glue 中编写作业所涉及的基本工作流程和步骤:


      演示如何通过 6 个基本步骤使用 Amazon Glue 编写任务的工作流程。

工作流程概述

当您编写作业时,您将提供有关数据源、目标和其他信息的详细信息。结果是生成的 Apache Spark API (PySpark) 脚本。然后,您可以在 Amazon Glue Data Catalog 中存储您的作业定义。

下面介绍了在 Amazon Glue 控制台中编写作业的全过程:

  1. 您可以为您的作业选择数据源。表示数据源的表必须已在您的数据目录中定义。如果源需要连接,连接也会在您的作业中被引用。如果您的作业需要多个数据源,您可以稍后通过编辑脚本来添加这些数据源。

  2. 您可以选择作业的数据目标。表示数据目标的表可以在数据目录中定义,或者您的任务可以在运行时创建目标表。在编写作业时,您会选择目标位置。如果目标需要连接,连接也会在您的作业中被引用。如果您的作业需要多个数据目标,您可以稍后通过编辑脚本来添加这些数据目标。

  3. 通过为作业和生成的脚本提供参数,您可以自定义作业处理环境。有关更多信息,请参阅 在 Amazon Glue 中添加作业

  4. 最初,Amazon Glue 会生成一个脚本,但您也可以编辑此脚本以添加源、目标和转换。有关转换的更多信息,请参阅 内置转换

  5. 您可以指定如何按需、按照基于时间的计划或按照事件调用您的作业。有关更多信息,请参阅 使用触发器启动作业和爬网程序

  6. 根据您的输入,Amazon Glue 生成 PySpark 或 Scala 脚本。您可以根据您的业务需求定制脚本。有关更多信息,请参阅 在 Amazon Glue 中编辑脚本