指标 |
描述 |
glue.driver.aggregate.bytesRead
|
所有执行程序中运行的所有已完成的 Spark 任务从所有数据源读取的字节数。
有效维度:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (计数)。
有效统计数据:SUM 此指标是上次报告值的增量值,因此,在 Amazon Glue 指标控制面板上,SUM 统计数据用于聚合。
单位:字节
可用于监控:
读取的字节数。 任务进度。 JDBC 数据源。 任务书签问题。 任务运行之间的差异。
此指标可以按 glue.ALL.s3.filesystem.read_bytes 指标的方式使用,不同之处在于此指标在 Spark 任务结束时更新并捕获非 S3 数据源。
|
glue.driver.aggregate.elapsedTime
|
ETL 运行时间(以毫秒为单位,不包括任务的引导启动时间)。
有效维度:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (计数)。
有效统计数据:SUM 此指标是上次报告值的增量值,因此,在 Amazon Glue 指标控制面板上,SUM 统计数据用于聚合。
单位:毫秒
可用于确定任务运行的平均时长。
数据的一些使用方式:
|
glue.driver.aggregate.numCompletedStages
|
任务中已完成的阶段数量。
有效维度:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (计数)。
有效统计数据:SUM 此指标是上次报告值的增量值,因此,在 Amazon Glue 指标控制面板上,SUM 统计数据用于聚合。
单位:计数
可用于监控:
任务进度。 每个阶段的任务执行时间线(与其他指标相关时)。
数据的一些使用方式:
|
glue.driver.aggregate.numCompletedTasks
|
任务中已完成的任务数量。
有效维度:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (计数)。
有效统计数据:SUM 此指标是上次报告值的增量值,因此,在 Amazon Glue 指标控制面板上,SUM 统计数据用于聚合。
单位:计数
可用于监控:
|
glue.driver.aggregate.numFailedTasks
|
失败的任务数。
有效维度:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (计数)。
有效统计数据:SUM 此指标是上次报告值的增量值,因此,在 Amazon Glue 指标控制面板上,SUM 统计数据用于聚合。
单位:计数
可用于监控:
导致作业任务失败的数据异常。 导致作业任务失败的集群异常。 导致作业任务失败的脚本异常。
这些数据可用于为增加的故障设置警报,这些故障可能表明数据、集群或脚本出现异常。
|
glue.driver.aggregate.numKilledTasks
|
已终止的任务数量。
有效维度:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (计数)。
有效统计数据:SUM 此指标是上次报告值的增量值,因此,在 Amazon Glue 指标控制面板上,SUM 统计数据用于聚合。
单位:计数
可用于监控:
导致终止任务的异常(OOM)的数据偏斜异常。 导致终止任务的异常(OOM)的脚本异常。
数据的一些使用方式:
为指示数据异常的增加故障设置警报。 为指示集群异常的增加故障设置警报。 为指示脚本异常的增加故障设置警报。
|
glue.driver.aggregate.recordsRead
|
所有执行程序中运行的所有已完成的 Spark 任务从所有数据源读取的记录数。
有效维度:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (计数)。
有效统计数据:SUM 此指标是上次报告值的增量值,因此,在 Amazon Glue 指标控制面板上,SUM 统计数据用于聚合。
单位:计数
可用于监控:
读取的记录数。 任务进度。 JDBC 数据源。 任务书签问题。 几天内的任务运行偏斜。
此指标可以按 glue.ALL.s3.filesystem.read_bytes 指标的方式使用,不同之处在于此指标在 Spark 任务结束时更新。
|
glue.driver.aggregate.shuffleBytesWritten
|
自上次报告以来所有执行程序为在它们之间对数据进行随机排序而写入的字节数(由 Amazon Glue 指标控制面板聚合为前一分钟内为此目的写入的字节数)。
有效维度:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (计数)。
有效统计数据:SUM 此指标是上次报告值的增量值,因此,在 Amazon Glue 指标控制面板上,SUM 统计数据用于聚合。
单位:字节
可用于监控:任务(大型联接、分组依据、重新分区、合并)中的数据随机排序。
数据的一些使用方式:
|
glue.driver.aggregate.shuffleLocalBytesRead
|
自上次报告以来所有执行程序为在它们之间对数据进行随机排序而读取的字节数(由 Amazon Glue 指标控制面板聚合为前一分钟内为此目的读取的字节数)。
有效维度:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (计数)。
有效统计数据:SUM 此指标是上次报告值的增量值,因此,在 Amazon Glue 指标控制面板上,SUM 统计数据用于聚合。
单位:字节
可用于监控:任务(大型联接、分组依据、重新分区、合并)中的数据随机排序。
数据的一些使用方式:
|
glue.driver.BlockManager.disk.diskSpaceUsed_MB
|
所有执行程序中所用磁盘空间的兆字节数。
有效尺寸:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (仪表)。
有效统计数据:平均值。这是 Spark 指标,报告为绝对值。
单位:兆字节
可用于监控:
数据的一些使用方式:
识别因磁盘使用率增加而导致的任务故障。 识别导致溢出或随机排序的大型分区。 增加预置 DPU 容量以纠正这些问题。
|
glue.driver.ExecutorAllocationManager.executors.numberAllExecutors
|
主动运行的执行程序的数量。
有效尺寸:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (仪表)。
有效统计数据:平均值。这是 Spark 指标,报告为绝对值。
单位:计数
可用于监控:
任务活动。 落后的执行程序(只有几个执行程序在运行) 当前执行程序级并行度。
数据的一些使用方式:
|
glue.driver.ExecutorAllocationManager.executors.numberMaxNeededExecutors
|
为满足当前负载所需的最大(主动运行和待处理)任务执行程序的数量。
有效尺寸:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (仪表)。
有效统计数据:最大值 这是 Spark 指标,报告为绝对值。
单位:计数
可用于监控:
数据的一些使用方式:
|
glue.driver.jvm.heap.usage
glue. executorId.jvm.heap.usage
glue.ALL.jvm.heap.usage
|
驱动程序的 JVM 堆用于此驱动程序的内存量(比例:0-1),executorId 标识的执行程序,或所有执行程序。
有效尺寸:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (仪表)。
有效统计数据:平均值。这是 Spark 指标,报告为绝对值。
单位:百分比
可用于监控:
数据的一些使用方式:
识别占用内存的执行程序 ID 和阶段。 识别落后执行程序 ID 和阶段。 识别驱动程序 out-of-memory 状况(OOM)。 识别执行程序 out-of-memory 状况(OOM)并获取相应的执行程序 ID,以便能够从执行程序日志中获取堆栈追踪。 识别可能有数据偏差导致落后程序或 out-of-memory 状况(OOM)的文件或分区。
|
glue.driver.jvm.heap.used
glue. executorId.jvm.heap.used
glue.ALL.jvm.heap.used
|
驱动程序的 JVM 堆所用的内存字节数,executorId 表示的执行程序或所有执行程序。
有效尺寸:JobName (Amazon GlueJob 名称)、JobRunId ( JobRun ID. 或ALL )和Type (仪表)。
有效统计数据:平均值。这是 Spark 指标,报告为绝对值。
单位:字节
可用于监控:
数据的一些使用方式:
识别占用内存的执行程序 ID 和阶段。 识别落后执行程序 ID 和阶段。 识别驱动程序 out-of-memory 状况(OOM)。 识别执行程序 out-of-memory 状况(OOM)并获取相应的执行程序 ID,以便能够从执行程序日志中获取堆栈追踪。 识别可能有数据偏差导致落后程序或 out-of-memory 状况(OOM)的文件或分区。
|
glue.driver.s3.filesystem.read_bytes
glue. executorId.s3.filesystem.read_bytes
glue.ALL.s3.filesystem.read_bytes
|
自上次报告以来,驱动程序、executorId 标识的执行程序、所有执行程序从 Amazon S3 读取的字节数(由 Amazon Glue 指标控制面板聚合为上一分钟内读取的字节数)。
有效维度:JobName 、JobRunId 和 Type (量规)。
有效统计数据:SUM 此指标是上次报告值的增量值,因此,在 Amazon Glue 指标控制面板上,SUM 统计数据用于聚合。Amazon Glue 指标控制面板上曲线下面的区域可用于直观比较两个不同任务运行读取的字节。
单位:字节。
可用于监控:
ETL 数据移动。 任务进度。 任务书签问题(数据已处理、已重新处理和已跳过)。 外部数据源的读取和摄入速率比较。 任务运行之间的差异。
生成的数据可用于:
|
glue.driver.s3.filesystem.write_bytes
glue. executorId.s3.filesystem.write_bytes
glue.ALL.s3.filesystem.write_bytes
|
自上次报告以来,驱动程序、executorId 标识的执行程序、所有执行程序从 Amazon S3 写入的字节数(由 Amazon Glue 指标控制面板聚合为上一分钟内写入的字节数)。
有效维度:JobName 、JobRunId 和 Type (量规)。
有效统计数据:SUM 此指标是上次报告值的增量值,因此,在 Amazon Glue 指标控制面板上,SUM 统计数据用于聚合。Amazon Glue 指标控制面板上曲线下面的区域可用于直观比较两个不同任务运行写入的字节。
单位:字节
可用于监控:
ETL 数据移动。 任务进度。 任务书签问题(数据已处理、已重新处理和已跳过)。 外部数据源的读取和摄入速率比较。 任务运行之间的差异。
数据的一些使用方式:
|
glue.driver.streaming.numRecords
|
微批处理中接收的记录数。此指标仅适用于 Amazon Glue 流式传输任务(采用 Amazon Glue 2.0 版及更高版本)。
有效维度:JobName (Amazon Glue作业名称)、JobRunId ( JobRun ID. 或ALL )和Type (计数)。
有效统计数据:总计、最大值、最小值、平均值、百分比
单位:计数
可用于监控:
|
glue.driver.streaming.batchProcessingTimeInMs
|
处理批处理所需的时间(以毫秒为单位)。此指标仅适用于 Amazon Glue 流式传输任务(采用 Amazon Glue 2.0 版及更高版本)。
有效维度:JobName (Amazon Glue作业名称)、JobRunId ( JobRun ID. 或ALL )和Type (计数)。
有效统计数据:总计、最大值、最小值、平均值、百分比
单位:计数
可用于监控:
|
glue.driver.system.cpuSystemLoad
glue. executorId.system.cpuSystemLoad
glue.ALL.system.cpuSystemLoad
|
驱动程序使用的 CPU 系统负载量(比例:0-1),executorId 标识的执行程序,或所有执行程序。
有效尺寸:JobName (Amazon Glue作业名称)、JobRunId ( JobRun ID. 或ALL )和Type (仪表)。
有效统计数据:平均值。此指标报告为绝对值。
单位:百分比
可用于监控:
数据的一些使用方式:
|