在 Amazon Glue 控制台上处理作业 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Glue 控制台上处理作业

Amazon Glue 中的作业包含执行提取、转换和加载 (ETL) 工作的业务逻辑。您可以在 控制台的 ETLAmazon Glue 部分中创建作业。

要查看现有任务,请登录 Amazon Web Services Management Console,然后通过以下网址打开 Amazon Glue 控制台:https://console.aws.amazon.com/glue/。然后在 中选择 JobsAmazon Glue (作业) 选项卡。Jobs (作业) 列表显示与每个作业关联的脚本的位置、上次修改作业的时间和当前作业书签选项。

Jobs (作业) 列表中,可以执行下列操作:

  • 要启动现有作业,请选择 Action (操作),然后选择 Run job (运行作业)。

  • 要停止 RunningStarting 作业,请选择 Action (操作),然后选择 Stop job run (停止作业运行)。

  • 要添加启动作业的触发器,请依次选择 Action (操作) 和 Choose job triggers (选择作业触发器)。

  • 要修改现有作业,请选择 Action (操作),然后选择 Edit job (编辑作业) 或 Delete (删除)。

  • 要更改与作业关联的脚本,请依次选择 Action (操作) 和 Edit script (编辑脚本)。

  • 要重置 Amazon Glue 存储的有关您的作业的状态信息,请依次选择 Action (操作)Reset job bookmark (重置作业书签)

  • 要创建具有此作业的属性的开发终端节点,请依次选择 Action (操作) 和 Create development endpoint (创建开发终端节点)。

使用控制台添加新作业
  1. 打开 Amazon Glue 控制台并选择 Jobs (作业) 选项卡。

  2. 选择 Add job (添加作业),然后按照 Add job (添加作业) 向导中的说明进行操作。

    如果您决定让 Amazon Glue 为您的作业生成脚本,则必须指定作业属性、数据源和数据目标,并验证源列到目标列的架构映射。您添加代码以执行 ETL 工作需要从生成的脚本开始。验证脚本中的代码并进行修改以满足您的业务需求。

    注意

    要获取使用生成的脚本添加作业的 step-by-step 指导,请参阅控制台中的添加作业教程。

    (可选)您可以向作业添加安全配置来指定静态加密选项。

    如果您提供或创作脚本,您的作业将定义源、目标和转换。但您必须在作业中指定脚本所需的任何连接。有关创建您自己的脚本的信息,请参阅提供您自己的自定义脚本

注意

作业代入您在创建它时指定的 IAM 角色的权限。此 IAM 角色必须有权从您的数据源中提取数据并将其写入您的目标。Amazon Glue 控制台仅列出已为 Amazon Glue 委托人服务附加信任策略的 IAM 角色。有关为 Amazon Glue 提供角色的更多信息,请参阅适用于 Amazon Glue 的基于身份的策略

如果任务读取经过 Amazon KMS 加密的 Amazon Simple Storage Service(Amazon S3)数据,则 IAM 角色必须具有 KMS 密钥的解密权限。有关更多信息,请参阅步骤 2:为 Amazon Glue 创建 IAM 角色

重要

查看纠正 Amazon Glue 中的错误来了解作业运行时存在的已知问题。

要了解每个作业所需的属性,请参阅定义 Spark 作业的作业属性

要获取使用生成的脚本添加作业的 step-by-step 指导,请参阅Amazon Glue控制台中的添加作业教程。

查看任务详细信息

要查看作业的详细信息,请在 Jobs (作业) 列表中选择作业,然后查看以下选项卡上的信息:

  • 历史记录

  • 详细信息

  • Script

  • 指标

历史记录

History (历史记录) 选项卡显示您的作业运行历史记录以及作业在过去有多么成功。对于每个作业,运行指标包括:

  • Run ID (运行 ID) 是 Amazon Glue 为此作业的每次运行创建的标识符。

  • Retry attempt (重试尝试) 显示要求 Amazon Glue 自动重试的作业的尝试次数。

  • Run status (运行状态) 显示列出的每次运行的成功状态,其中最新运行位于顶部。如果作业为 RunningStarting,您可以选择此列中的操作图标来停止它。

  • Error (错误) 在运行不成功时显示错误消息的详细信息。

  • Logs (日志) 链接到写入此作业运行的 stdout 的日志。

    日志链接会将您带到 Amazon L CloudWatch ogs,您可以在其中查看有关在中创建的表Amazon Glue Data Catalog和遇到的任何错误的详细信息。您可以在其中管理 CloudWatch 控制台中管理日志期。默认日志保留为 Never Expire。有关更多如何更改保留期的信息,请参阅 Amazon Lo CloudWatch g CloudWatch s 数据留存

  • Error logs (错误日志) 链接到写入此作业运行的 stderr 的日志。

    此链接会将 CloudWatch 您带到,您可以在其中查看有关遇到的任何错误的详细信息。您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为 Never Expire。有关更多如何更改保留期的信息,请参阅 Amazon Lo CloudWatch g CloudWatch s 数据留存

  • Execution time (执行时间) 显示作业运行消耗资源的时间长度。计算长度时从作业运行开始消耗资源时算起,直至完成。

  • Timeout (超时) 显示作业运行在停止并进入超时状态之前可以消耗资源的最长执行时间。

  • Delay (延迟) 显示发送作业延迟通知之前的阈值。当Job 运行执行执行时间达到此阈值时,将向 EventsAmazon Glue 发送通知(“Gl运行状态”)(“Gl运行状态”)(“Gl运行状态”)(“Gl CloudWatch

  • Triggered by (触发者) 显示触发以启动此作业运行的触发器。

  • Start time (开始时间) 显示作业启动的日期和时间 (本地时间)。

  • End time (结束时间) 显示作业结束的日期和时间 (本地时间)。

对于特定的作业运行,您可以 View run metrics (查看运行指标),这将显示所选作业运行的指标图表。有关如何启用指标和解释图表的更多信息,请参阅作业监控和调试

详细信息

Details (详细信息) 选项卡包含作业的属性。它显示有关作业定义的详细信息,还列出了可启动此作业的触发器。每次列表中的触发器之一触发时,都会启动此作业。对于触发器列表,详细信息包括:

  • Trigger name (触发器名称) 显示在触发时会启动此作业的触发器的名称。

  • Trigger type (触发器类型) 列出启动此作业的触发器的类型。

  • Trigger status (触发器状态) 显示触发器是已创建、已激活还是已停用。

  • Trigger parameters (触发器参数) 显示定义触发器何时触发的参数。

  • Jobs to trigger (要触发的作业) 显示此触发器触发时启动的作业列表。

注意

Details (详细信息) 选项卡不包含源和目标信息。检查脚本以查看源和目标详细信息。

Script

Script (脚本) 选项卡显示作业启动时运行的脚本。您可以从此选项卡调用 Edit script (编辑脚本) 视图。有关 Amazon Glue 控制台中的脚本编辑器的更多信息,请参阅作业(旧版)。有关脚本中调用的函数的信息,请参阅在Amazon Glue ETL 脚本中编程 PySpark

指标

Metrics (指标) 选项卡显示启用任务运行和分析时收集的指标。显示了以下图表:

  • ETL 数据移动

  • 内存配置文件:驱动程序和执行程序

选择 View additional metrics (查看其他指标) 显示以下图表:

  • ETL 数据移动

  • 内存配置文件:驱动程序和执行程序

  • 执行程序之间的数据随机排序

  • CPU 负载:驱动程序和执行程序

  • 作业执行:活动执行程序、已完成的阶段和需求最大的执行程序

如果已配置任务 CloudWatch 运行以收集指标,系统则会将向指标推送这些日志。有关如何启用指标和解释图表的更多信息,请参阅作业监控和调试

例 ETL 数据移动图表

ETL 数据移动图表会显示以下指标:


                        Amazon Glue 控制台的 Metrics (指标) 选项卡中显示 ETL 数据移动的图表。
例 内存配置文件图表

内存配置文件图表会显示以下指标:


                        Amazon Glue 控制台的 Metrics (指标) 选项卡中显示内存配置文件的图表。
例 执行程序之间的数据随机排序图表

执行程序之间的数据随机排序图表显示了以下指标:


                        Amazon Glue 控制台的 Metrics (指标) 选项卡中显示执行程序之间的数据随机排序图表。
例 CPU 负载图表

CPU 负载图表显示以下指标:


                        Amazon Glue 控制台的 Metrics (指标) 选项卡中显示 CPU 负载的图表。
例 作业执行图表

作业执行图表显示以下指标:


                        Amazon Glue 控制台的 Metrics (指标) 选项卡中显示任务执行的图表。