在 Amazon Glue 中编写作业
作业是用于在 Amazon Glue 中执行提取、转换和加载 (ETL) 工作的业务逻辑。当您启动作业时,Amazon Glue 运行一个从源中提取数据、转换数据并将其加载到目标中的脚本。您可以在 Amazon Glue 控制台的 ETL 部分中创建作业。有关更多信息,请参阅 在 Amazon Glue 控制台上处理作业。
下图总结了在 Amazon Glue 中编写作业所涉及的基本工作流程和步骤:

工作流程概述
当您编写作业时,您将提供有关数据源、目标和其他信息的详细信息。结果是生成的 Apache Spark API (PySpark) 脚本。然后,您可以在 Amazon Glue Data Catalog 中存储您的作业定义。
下面介绍了在 Amazon Glue 控制台中编写作业的全过程:
-
您可以为您的作业选择数据源。表示数据源的表必须已在您的数据目录中定义。如果源需要连接,连接也会在您的作业中被引用。如果您的作业需要多个数据源,您可以稍后通过编辑脚本来添加这些数据源。
-
您可以选择作业的数据目标。表示数据目标的表可以在数据目录中定义,或者您的任务可以在运行时创建目标表。在编写作业时,您会选择目标位置。如果目标需要连接,连接也会在您的作业中被引用。如果您的作业需要多个数据目标,您可以稍后通过编辑脚本来添加这些数据目标。
-
通过为作业和生成的脚本提供参数,您可以自定义作业处理环境。有关更多信息,请参阅 在 Amazon Glue 中添加作业。
-
最初,Amazon Glue 会生成一个脚本,但您也可以编辑此脚本以添加源、目标和转换。有关转换的更多信息,请参阅 内置转换。
-
您可以指定如何按需、按照基于时间的计划或按照事件调用您的作业。有关更多信息,请参阅 使用触发器启动作业和爬网程序。
-
根据您的输入,Amazon Glue 生成 PySpark 或 Scala 脚本。您可以根据您的业务需求定制脚本。有关更多信息,请参阅 在 Amazon Glue 中编辑脚本。