在 AWS Glue Studio 中监控 ETL 作业 - AWS Glue Studio
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 AWS Glue Studio 中监控 ETL 作业

监控是保持 AWS Glue 和 AWS Glue Studio 中使用的 ETL 作业的可靠性、可用性和性能的重要方面。您应从 AWS 解决方案的所有部分收集监控数据,以便更轻松地调试出现的多点故障。

访问作业监控控制面板

您可以通过在 导航窗格中选择 Monitoring (监控)AWS Glue Studio 链接来访问作业监控控制面板。

作业监控控制面板概述

作业监控控制面板提供了作业运行的整体摘要,包括状态为 RunningCanceledSuccessFailed 的作业的总计。其他磁贴提供总体作业成功率、作业的估计 DPU 利用率、按作业类型、工作线程类型和按天计数的作业状态明细。

磁贴中的图形是交互式的。您可以选择图表中的任何块来运行筛选器,该筛选器仅显示页面底部的 Job runs breakdown (作业运行细分) 表中的作业。

您可以使用日期范围选择器更改此页上所显示信息的日期范围。当您更改日期范围时,信息磁贴会调整为显示当前日期之前的指定天数的值。如果从日期范围选择器中选择 Custom (自定义),也可以使用特定的日期范围。

作业运行视图

Job runs (作业运行) 资源列表显示指定日期范围和筛选条件的作业。

您可以根据其他条件(例如状态、工作线程类型、作业类型和作业名称)筛选作业。在表顶部的筛选框中,您可以输入要用作筛选条件的文本。在您输入文本时,将使用包含匹配文本的行更新表结果。

您可以通过从作业监控控制面板上的图表中选择元素来查看作业的子集。例如,如果您在 Job runs summary (作业运行摘要) 磁贴中选择正在运行的作业数,则 Job runs (作业运行) 列表仅显示当前状态为 Running 的作业。 如果您在 Worker type breakdown (工作线程类型细分) 条形图中选择其中一个条形,则 Job runs (作业运行) 列表中仅显示具有匹配工作线程类型和状态的作业运行。

Job runs (作业运行) 资源列表显示作业运行的详细信息。可以通过选择列标题对表中的行进行排序。该表包含以下信息:

Property Description
名称 作业的名称
Type

作业环境的类型:

  • Glue ETL: 在由 AWS Glue 管理的 Apache Spark 环境中运行。

  • Glue Streaming: 在 Apache Spark 环境中运行并对数据流执行 ETL。

  • Python shell: 将 Python 脚本作为 shell 运行

Start Time

此作业运行的启动日期和时间。

End Time (结束时间)

此作业运行的完成日期和时间。

运行状态

作业运行的当前状态。值可以是:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

持续时间 作业运行使用资源的时间量。
Capacity

为此作业运行分配的 AWS Glue 数据处理单元 (DPU) 的数量。有关容量规划的更多信息,请参阅 https://docs.amazonaws.cn/glue/latest/dg/monitor-debug-capacity.html 中的监控 DPU 容量规划AWS Glue 开发人员指南。

工作线程类型

作业运行时分配的预定义工作线程的类型。值可以是 StandardG.1XG.2X

DPU 小时数

用于作业运行的 DPUs 的估计数量。DPU 是处理能力的相对度量。DPUs 用于确定运行作业的成本。有关更多信息,请参阅 AWS Glue 定价页

您可以在列表中选择任何作业运行并查看其他信息。选择作业运行,然后执行以下操作之一:

  • 选择 Actions (操作) 菜单和 View logs (查看日志) 选项以查看该作业的作业运行日志。

  • 选择 Actions (操作) 菜单和 View job (查看作业) 选项以在可视化图表编辑器中查看作业。

  • 选择 Actions (操作) 菜单和 Stop run (停止运行) 选项以停止作业的当前运行。

  • 选择 View run details (查看运行详细信息) 以查看作业运行详细信息页面。

查看作业运行日志

您可以通过多种方式查看作业日志:

  • Monitoring (监控) 页面上的 Job Runs (作业运行) 表中,选择一个作业。然后,在 Actions (操作) 菜单上,选择 View logs (查看日志)

  • 在可视化作业编辑器中,在作业的 Run details (运行详细信息) 选项卡上,选择超链接以查看日志:

    • Logs (CloudWatch 日志) – 指向写入此作业运行的 stdout 的日志的链接。选择此链接时,它将转到 Amazon CloudWatch Logs,您可以在其中查看有关在 AWS Glue 数据目录中创建的表和遇到的任何错误的所有详细信息。

    • 错误日志 – 指向写入此作业运行的 stderr 的日志的链接。选择此链接时,它将转到 CloudWatch Logs,您可以在其中查看有关作业运行期间遇到的任何错误的详细信息。

  • 如果您按需运行作业并且作业失败,请选择横幅中的链接以查看该作业运行的日志。

查看作业运行的详细信息

您可以在 Job runs (作业运行) 视图中选择一个作业,然后选择 View run details (查看运行详细信息) 以查看该作业运行的详细信息。

作业运行详细信息页面上显示的信息包括:

Property Description
作业名称 作业的名称
运行状态

作业运行的当前状态。值可以是:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Glue 版本 作业运行使用的 AWS Glue 版本
最近的尝试次数 此作业运行的自动重试尝试次数
Start Time

启动此作业运行的日期和时间

End Time (结束时间)

此作业运行的完成日期和时间

启动时间

准备运行作业所花费的时间量

Execution (执行) 时间

运行作业脚本所花费的时间量

触发器名称

与作业关联的触发器的名称

上次修改时间

上次修改作业的日期

安全配置

作业的安全配置,包括 Amazon S3 加密、CloudWatch 加密和作业书签加密设置

超时 作业运行超时阈值
分配的容量

为此作业运行分配的 AWS Glue 数据处理单元 (DPU) 的数量。有关容量规划的更多信息,请参阅 https://docs.amazonaws.cn/glue/latest/dg/monitor-debug-capacity.html 中的监控 DPU 容量规划AWS Glue 开发人员指南。

最大容量

作业运行可用的最大容量。

工作线程数 用于作业运行的工作线程数
工作线程类型

为作业运行分配的预定义工作线程的类型。值可以是 StandardG.1XG.2X

日志 指向作业日志文件的链接
错误日志 指向任务错误日志文件的链接
错误 作业运行返回的错误。如果作业运行未返回错误,则不会显示此字段。

查看作业运行的 Amazon CloudWatch 指标

在作业运行详细信息页面的 Run details (运行详细信息) 部分下,您可以查看作业指标。对于每次作业运行,AWS Glue Studio 都会向 Amazon CloudWatch 发送作业指标。

AWS Glue 每 30 秒向 Amazon CloudWatch 报告一次指标。AWS Glue 指标表示先前报告的值的增量值。在适当的情况下,指标控制面板会聚合(汇总)30 秒值,以获取整个最后一分钟的值。但是,AWS Glue 传递给 Amazon CloudWatch 的 Apache Spark 指标通常是表示在报告它们时的当前状态的绝对值。

注意

您必须配置您的账户以访问 Amazon CloudWatch,如Amazon CloudWatch权限中所述。

这些指标提供有关您的作业运行的信息,例如:

  • ETL 数据移动 – 从 Amazon S3 中读取或写入的字节数。

  • 内存配置文件: 堆使用 – Java 虚拟机 (JVM) 堆使用的内存字节数。

  • 内存配置文件:堆使用率 – JVM 堆使用的内存量(比例:0–1)。

  • CPU 负载 – 使用的 CPU 系统负载比例(比例:0–1)。