控制台上的 Amazon Glue 作业运行状态 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

控制台上的 Amazon Glue 作业运行状态

您可以查看 Amazon Glue 提取、转换和加载(ETL)任务在运行时或停止后的状态。您可以使用 Amazon Glue 控制台查看状态。有关作业运行状态的更多信息,请参阅 Amazon Glue 作业运行状态

访问任务监控控制面板

您可以在 Amazon Glue 导航窗格中选择 Monitoring (监控) 链接,从而访问任务监控控制面板。

任务监控控制面板概览

任务监控控制面板提供任务运行的总体摘要,以及状态 Running (正在运行)Canceled (已取消)Success (成功) 或者 Failed (失败)。其他磁贴提供总体任务运行成功率、任务的预估 DPU 使用率,以及按任务类型、工件类型和天细分的任务状态计数。

磁贴中的图形是交互式。您可以选择图形中的任意数据块来运行筛选条件,仅显示页面底部 Job runs (任务运行) 表中的任务。

您可以使用 Date range (日期范围) 选择器更改此页面上显示的信息的日期范围。更改日期范围时,信息磁贴会进行调整,显示代表当前日期之前指定天数的值。如果您从日期范围选择器中选择 Custom (自定义),您还可以使用特定日期范围。

任务运行视图

Job runs (任务运行) 资源列表显示符合指定日期范围和筛选条件的任务。

您可以根据其他条件(如状态、工件类型、任务类型和任务名称)筛选任务。在表格顶部的筛选条件框中,您可以输入要用作筛选条件的文本。当您输入文本时,将使用包含匹配文本的行更新表结果。

您可以从任务监控控制面板上的图形中选择元素,查看任务的子集。例如,如果您选择 Job runs summary (任务运行摘要) 磁贴中正在运行的任务的数量,则 Job runs (任务运行) 列表仅显示当前状态为 Running 的任务。如果您选择 Worker type breakdown (工件类型细分) 条形图,则 Job runs (任务运行) 列表中仅显示具有匹配工件类型和状态的任务运行。

Job runs (任务运行) 资源列表显示任务运行的详细信息。可以通过选择列标题对表中的行进行排序。此表包含以下信息:

属性 描述
作业名称 作业的名称。
类型

任务环境的类型:

  • Glue ETL:在由 Amazon Glue 管理的 Apache Spark 环境中运行。

  • Glue Streaming:在 Apache Spark 环境中运行,并在数据流上执行 ETL。

  • Python Shell:以 Shell 运行 Python 脚本。

开始时间

此任务运行的启动日期和时间。

结束时间

此任务运行的完成日期和时间。

运行状态

任务运行的当前状态。值可以是:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

运行时间 任务运行使用资源的时间长度(以秒为单位)。
容量

此任务运行时可分配的 Amazon Glue 数据处理单元(DPU)的最大数量。有关容量规划的更多信息,请参阅《Amazon Glue 开发人员指南》中的 DPU 容量规划监控

工作线程类型

任务运行时分配的预定义工件的类型。值可以是 G.1XG.2XG.4X 或者 G.8X

  • G.1X – 当您选择这种类型时,您还提供了 Number of workers (工件数量) 的值。每个工作线程映射到 1 个 DPU(4 个 vCPU,16 GB 内存)和 84GB 磁盘(大约 34GB 可用空间)。我们建议内存密集型作业使用该工作线程类型。这是针对 Amazon Glue 2.0 版或更高版本任务的默认工件类型

  • G.2X – 当您选择这种类型时,您还提供了 Number of workers (工件数量) 的值。每个工作线程映射到 2 个 DPU(8 个 vCPU,32 GB 内存)和 128GB 磁盘(大约 77GB 可用空间)。我们建议将此工件类型用于内存密集型任务和运行机器学习转换的任务。

  • G.4X – 当您选择这种类型时,您还提供了 Number of workers (工件数量) 的值。每个工作线程映射到 4 个 DPU(16 个 vCPU,64 GB 内存)和 256GB 磁盘(大约 235GB 可用空间)。对于工作负载包含要求最高的转换、聚合、联接和查询的作业,我们建议使用这种工作线程类型。此工作线程类型仅适用于以下 Amazon 区域的 Amazon Glue 3.0 版或更高版本的 Spark ETL 作业:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、加拿大(中部)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)和欧洲地区(斯德哥尔摩)。

  • G.8X – 当您选择这种类型时,您还提供了 Number of workers (工件数量) 的值。每个工作线程映射到 8 个 DPU(32 个 vCPU,128 GB 内存)和 512GB 磁盘(大约 487GB 可用空间)。对于工作负载包含要求最高的转换、聚合、联接和查询的作业,我们建议使用这种工作线程类型。此工作线程类型仅适用于 Amazon Glue 3.0 版或更高版本的 Spark ETL 作业,其区域与 G.4X 工作线程类型支持的 Amazon 区域相同。

DPU 小时

任务运行使用的 DPU 的估计数量。DPU 是处理能力的相对衡量标准。DPU 用于确定任务运行成本。有关更多信息,请参阅 Amazon Glue 价格页面

您可以在列表中选择任何任务运行并查看其他信息。选择任务运行,然后执行以下任一操作:

  • 选择 Actions (操作) 菜单和 View job (查看任务) 选项,在可视化编辑器中查看任务。

  • 选择 Actions (操作) 菜单和 Stop run (停止运行) 选项,停止任务的当前运行。

  • 选择 View CloudWatch logs (查看 CloudWatch 日志) 按钮,查看该任务的任务运行日志。

  • 选择查看详细信息可查看“作业运行详细信息”页面。

查看任务运行日志

您可通过多种方式查看任务日志:

  • Monitoring (监控) 页面中的 Job runs (任务运行) 表中,选择任务运行,然后选择 View CloudWatch logs (查看 CloudWatch 日志)

  • 在可视化任务编辑器中,在任务的 Runs (运行) 选项卡上,选择超链接以查看日志:

    • Logs (日志) – 链接到为任务运行启用连续日志记录时写入的 Apache Spark 任务日志。当您选择此链接时,它会将您转到 /aws-glue/jobs/logs-v2 日志组中的 Amazon CloudWatch 日志。默认情况下,日志会排除无用的 Apache Hadoop YARN 检测信号和 Apache Spark 驱动程序或执行程序日志消息。有关连续日志记录的更多信息,请参阅的《Amazon Glue 开发人员指南》中的连续日志记录 Amazon Glue 任务

    • Error logs (错误日志) – 链接到写入此任务运行的 stderr 的日志。当您选择此链接时,它会将您转到 /aws-glue/jobs/error 日志组中的 Amazon CloudWatch 日志。您可以使用这些日志查看有关任务运行期间遇到的错误的详细信息。

    • Output logs (输出日志) – 链接到写入此任务运行的 stdout 的日志。当您选择此链接时,它会将您转到 /aws-glue/jobs/output 日志组中的 Amazon CloudWatch 日志。您可以使用这些日志,查看有关在 Amazon Glue Data Catalog 中创建的表和遇到的错误的详细信息。

查看任务运行的详细信息

您可以在 Monitoring (监控) 页面上的 Job runs (任务运行) 列表中选择任务,然后选择 View run details (查看运行详细信息),查看该任务运行的详细信息。

任务运行详细信息页面上显示的信息包括:

属性 描述
作业名称 作业的名称。
运行状态

任务运行的当前状态。值可以是:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Glue 版本 作业运行使用的 Amazon Glue 版本。
最近的尝试 此作业运行的自动重试次数。
开始时间

此任务运行的启动日期和时间。

结束时间

此任务运行的完成日期和时间。

开始时间

准备运行作业运行所花费的时间。

执行时间

运行作业脚本花费的时间。

触发器名称

与作业关联的触发器的名称。

上次修改日期

上次修改作业的日期。

安全配置

作业的安全配置,包括 Amazon S3 加密、CloudWatch 加密和作业书签加密设置。

超时 作业运行超时阈值。
已分配容量

此任务运行时可分配的 Amazon Glue 数据处理单元(DPU)的最大数量。有关容量规划的更多信息,请参阅《Amazon Glue 开发人员指南》中的 DPU 容量规划监控

最大容量

任务运行可用的最大容量。

工作线程数 作业运行所用的工作线程数。
工作线程类型

为任务运行分配的预定义工件的类型。值可以是 G.1X 或者 G.2X

  • G.1X – 当您选择这种类型时,您还提供了 Number of workers (工件数量) 的值。每个工作线程映射到 1 个 DPU(4 个 vCPU,16 GB 内存,64 GB 磁盘),并且每个工作线程提供 1 个执行程序。我们建议内存密集型作业使用该工作线程类型。这是针对 Amazon Glue 2.0 版或更高版本任务的默认工件类型

  • G.2X – 当您选择这种类型时,您还提供了 Number of workers (工件数量) 的值。每个工作线程映射到 2 个 DPU(8 个 vCPU,32 GB 内存,128 GB 磁盘),并且每个工作线程提供 1 个执行程序。我们建议将此工件类型用于内存密集型任务和运行机器学习转换的任务。

日志 指向连续日志记录(/aws-glue/jobs/logs-v2)的作业日志链接
输出日志 指向作业输出日志文件(/aws-glue/jobs/output)的链接。
错误日志 指向作业错误日志文件(/aws-glue/jobs/error)的链接。

您还可以查看以下附加项目,这些项目在您查看最近任务运行的信息时可用。有关更多信息,请参阅 查看最近任务运行的信息

查看 Spark 作业运行的 Amazon CloudWatch 指标

在任务运行的详细信息页面上的 Run details (运行详细信息) 部分下面,您可以查看任务指标。Amazon Glue Studio 将任务指标发送到 Amazon CloudWatch,用于每次任务运行。

Amazon Glue 每 30 秒将指标报告到 Amazon CloudWatch Amazon Glue 指标表示先前报告的值的增量值。在适当时,指标控制面板会聚合(合计)30 秒值以获取整个最后一分钟的值。但是,Amazon Glue 传递给 Amazon CloudWatch 的 Apache Spark 指标通常是表示在报告它们时的当前状态的绝对值。

注意

您必须配置您的账户才能访问 Amazon CloudWatch。

指标提供有关任务运行的信息,例如:

  • ETL Data Movement (ETL 数据移动) – 从 Amazon S3 中读取或向其中写入的字节数。

  • Memory Profile: Heap used (内存配置文件:使用的堆) – Java 虚拟机(JVM)堆使用的内存字节数。

  • Memory Profile: heap usage (内存配置文件:堆使用情况) – JVM 堆使用的内存所占的比例(比例:0–1)。

  • CPU Load (CPU 负载) – 使用的 CPU 系统负载所占的比例(比例:0–1)。

查看 Ray 作业运行的 Amazon CloudWatch 指标

在任务运行的详细信息页面上的 Run details (运行详细信息) 部分下面,您可以查看任务指标。Amazon Glue Studio 将任务指标发送到 Amazon CloudWatch,用于每次任务运行。

Amazon Glue 每 30 秒将指标报告到 Amazon CloudWatch Amazon Glue 指标表示先前报告的值的增量值。在适当时,指标控制面板会聚合(合计)30 秒值以获取整个最后一分钟的值。但是,Amazon Glue 传递给 Amazon CloudWatch 的 Apache Spark 指标通常是表示在报告它们时的当前状态的绝对值。

注意

您必须配置您的账户才能访问 Amazon CloudWatch,如中所述。

在 Ray 作业中,您可以查看以下聚合指标图表。借助这些功能,您可以建立集群和任务的配置文件,也可以访问有关每个节点的详细信息。支持这些图表的时间序列数据可在 CloudWatch 中找到,以供进一步分析。

任务配置文件:任务状态

显示系统中 Ray 任务的数量。每个任务生命周期都有自己的时间序列。

任务配置文件:任务名称

显示系统中 Ray 任务的数量。仅显示待处理任务和活动任务。每种类型的任务(按名称)都有自己的时间序列。

集群配置文件:正在使用的 CPU

显示使用的 CPU 内核数。每个节点都有自己的时间序列。节点由 IP 地址标识,IP 地址是临时的,仅用于识别。

集群配置文件:对象存储内存使用情况

显示 Ray 对象缓存的内存使用情况。每个内存位置(物理内存、缓存在磁盘上以及溢出在 Amazon S3 中)都有自己的时间序列。对象存储管理集群中所有节点的数据存储。有关更多信息,请参阅 Ray 文档中的 Objects

集群配置文件:节点数

显示为集群配置的节点数量。

节点详细信息:CPU 使用情况

以百分比形式显示每个节点上的 CPU 使用率。每个系列都显示节点上所有内核的 CPU 使用率的汇总百分比。

节点详细信息:内存使用情况

显示每个节点的内存使用情况(以 GB 为单位)。每个系列都显示节点上所有进程之间聚合的内存,包括 Ray 任务和 Plasma 存储进程。这不会反映存储到磁盘或溢出到 Amazon S3 的对象。

节点详细信息:磁盘使用情况

显示每个节点的磁盘使用情况(以 GB 为单位)。

节点详细信息:磁盘 I/O 速度

以 KB/s 为单位显示每个节点上的磁盘 I/O。

节点详细信息:网络 I/O 吞吐量

以 KB/s 为单位显示每个节点上的网络 I/O。

节点详细信息:Ray 组件的 CPU 使用情况

以所占核心的分数来显示 CPU 使用率。每个节点上的每个 ray 组件都有自己的时间序列。

节点详细信息:Ray 组件的内存使用情况

以 GiB 为单位显示内存使用情况。每个节点上的每个 ray 组件都有自己的时间序列。