在 AWS Glue 控制台上处理作业 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

在 AWS Glue 控制台上处理作业

AWS Glue 中的作业包含执行提取、转换和加载 (ETL) 工作的业务逻辑。您可以在 AWS Glue 控制台的 ETL 部分中创建作业。

要查看现有作业,请登录 AWS 管理控制台 并通过 https://console.amazonaws.cn/glue/ 打开 AWS Glue 控制台。然后在 AWS Glue 中选择 Jobs (作业) 选项卡。Jobs (作业) 列表显示与每个作业关联的脚本的位置、上次修改作业的时间和当前作业书签选项。

Jobs (作业) 列表中,可以执行下列操作:

  • 要启动现有作业,请选择 Action (操作),然后选择 Run job (运行作业)。

  • 要停止 RunningStarting 作业,请选择 Action (操作),然后选择 Stop job run (停止作业运行)。

  • 要添加启动作业的触发器,请依次选择 Action (操作) 和 Choose job triggers (选择作业触发器)。

  • 要修改现有作业,请选择 Action (操作),然后选择 Edit job (编辑作业) 或 Delete (删除)。

  • 要更改与作业关联的脚本,请依次选择 Action (操作) 和 Edit script (编辑脚本)。

  • 要重置 AWS Glue 存储的有关您的作业的状态信息,请依次选择 Action (操作)Reset job bookmark (重置作业书签)

  • 要创建具有此作业的属性的开发终端节点,请依次选择 Action (操作) 和 Create development endpoint (创建开发终端节点)。

使用控制台添加新作业

  1. 打开 AWS Glue 控制台并选择 Jobs (作业) 选项卡。

  2. 选择 Add job (添加作业),然后按照 Add job (添加作业) 向导中的说明进行操作。

    如果您决定让 AWS Glue 为您的作业生成脚本,则必须指定作业属性、数据源和数据目标,并验证源列到目标列的架构映射。您添加代码以执行 ETL 工作需要从生成的脚本开始。验证脚本中的代码并进行修改以满足您的业务需求。

    注意

    要获取使用生成的脚本添加作业的分步指导,请参阅控制台中的 Add job (添加作业) 教程。

    (可选)您可以向作业添加安全配置来指定静态加密选项。

    如果您提供或创作脚本,您的作业将定义源、目标和转换。但您必须在作业中指定脚本所需的任何连接。有关创建您自己的脚本的信息,请参阅提供您自己的自定义脚本

注意

作业代入您在创建它时指定的 IAM 角色的权限。此 IAM 角色必须有权从您的数据源中提取数据并将其写入您的目标。AWS Glue 控制台仅列出已为 AWS Glue 委托人服务附加信任策略的 IAM 角色。有关为 AWS Glue 提供角色的更多信息,请参阅基于身份的策略

如果作业读取 AWS KMS 加密的Amazon Simple Storage Service (Amazon S3) 数据,则 IAM 角色必须具有 KMS 密钥的解密权限。有关更多信息,请参阅 步骤 2:为 AWS Glue 创建 IAM 角色

重要

查看纠正 AWS Glue 中的错误来了解作业运行时存在的已知问题。

要了解每个作业所需的属性,请参阅定义作业属性

要获取使用生成的脚本添加作业的分步指导,请参阅 AWS Glue 控制台中的 Add job (添加作业) 教程。

查看作业详细信息

要查看作业的详细信息,请在 Jobs (作业) 列表中选择作业,然后查看以下选项卡上的信息:

  • 历史记录

  • 详细信息

  • Script

  • 指标

历史记录

History (历史记录) 选项卡显示您的作业运行历史记录以及作业在过去有多么成功。对于每个作业,运行指标包括:

  • Run ID (运行 ID) 是 AWS Glue 为此作业的每次运行创建的标识符。

  • Retry attempt (重试尝试) 显示要求 AWS Glue 自动重试的作业的尝试次数。

  • Run status (运行状态) 显示列出的每次运行的成功状态,其中最新运行位于顶部。如果作业为 RunningStarting,您可以选择此列中的操作图标来停止它。

  • Error (错误) 在运行不成功时显示错误消息的详细信息。

  • Logs (日志) 链接到写入此作业运行的 stdout 的日志。

    Logs (日志) 链接会将您带到 Amazon CloudWatch Logs,您可以在其中查看有关在 AWS Glue 数据目录中创建的表和遇到的任何错误的所有详细信息。您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为 Never Expire。有关如何更改保留期的更多信息,请参阅 Amazon CloudWatch Logs User Guide 中的更改 CloudWatch Logs 中的日志数据保留

  • Error logs (错误日志) 链接到写入此作业运行的 stderr 的日志。

    此链接会将您带到 CloudWatch Logs,您可以在其中查看有关遇到的任何错误的详细信息。您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为 Never Expire。有关如何更改保留期的更多信息,请参阅 Amazon CloudWatch Logs User Guide 中的更改 CloudWatch Logs 中的日志数据保留

  • Execution time (执行时间) 显示作业运行消耗资源的时间长度。计算长度时从作业运行开始消耗资源时算起,直至完成。

  • Timeout (超时) 显示作业运行在停止并进入超时状态之前可以消耗资源的最长执行时间。

  • Delay (延迟) 显示发送作业延迟通知之前的阈值。当作业运行执行时间达到此阈值时,AWS Glue 将向 CloudWatch Events 发送通知(“Glue 作业运行状态”)。

  • Triggered by (触发者) 显示触发以启动此作业运行的触发器。

  • Start time (开始时间) 显示作业启动的日期和时间 (本地时间)。

  • End time (结束时间) 显示作业结束的日期和时间 (本地时间)。

对于特定的作业运行,您可以 View run metrics (查看运行指标),这将显示所选作业运行的指标图表。有关如何启用指标和解释图表的更多信息,请参阅作业监控和调试

详细信息

Details (详细信息) 选项卡包含作业的属性。它显示有关作业定义的详细信息,还列出了可启动此作业的触发器。每次列表中的触发器之一触发时,都会启动此作业。对于触发器列表,详细信息包括:

  • Trigger name (触发器名称) 显示在触发时会启动此作业的触发器的名称。

  • Trigger type (触发器类型) 列出启动此作业的触发器的类型。

  • Trigger status (触发器状态) 显示触发器是已创建、已激活还是已停用。

  • Trigger parameters (触发器参数) 显示定义触发器何时触发的参数。

  • Jobs to trigger (要触发的作业) 显示此触发器触发时启动的作业列表。

注意

Details (详细信息) 选项卡不包含源和目标信息。检查脚本以查看源和目标详细信息。

Script

Script (脚本) 选项卡显示作业启动时运行的脚本。您可以从此选项卡调用 Edit script (编辑脚本) 视图。有关 AWS Glue 控制台中的脚本编辑器的更多信息,请参阅在 AWS Glue 控制台上处理脚本。有关脚本中调用的函数的信息,请参阅在 Python 中编写 AWS Glue ETL 脚本

指标

指标选项卡显示启用作业运行和分析时收集的指标。显示了以下图表:

  • ETL 数据移动

  • 内存配置文件:驱动程序和执行程序

选择 View additional metrics (查看其他指标) 显示以下图表:

  • ETL 数据移动

  • 内存配置文件:驱动程序和执行程序

  • 执行程序之间的数据随机排序

  • CPU 负载:驱动程序和执行程序

  • 作业执行:活动执行程序、已完成的阶段和需求最大的执行程序

如果已启用作业以收集指标,则会将这些图表的数据推送到 CloudWatch 指标。有关如何启用指标和解释图表的更多信息,请参阅作业监控和调试

例 ETL 数据移动图表的

ETL 数据移动图表会显示以下指标:


                        AWS Glue 控制台的 Metrics (指标) 选项卡中 ETL 数据移动的图表。

例 内存配置文件图表的

内存配置文件图表会显示以下指标:


                        AWS Glue 控制台的 Metrics (指标) 选项卡中内存配置文件的图表。

例 执行程序之间的数据随机排序图表的

执行程序之间的数据随机排序图表显示了以下指标:


                        AWS Glue 控制台的 Metrics (指标) 选项卡中执行程序之间的数据随机排序图表。

例 CPU 负载图表

CPU 负载图表显示以下指标:


                        AWS Glue 控制台的 Metrics (指标) 选项卡中 CPU 负载的图表。

例 作业执行图表

作业执行图表显示以下指标:


                        AWS Glue 控制台的 Metrics (指标) 选项卡中作业执行的图表。