作业监控和调试 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

作业监控和调试

您可以收集有关 Amazon Glue 任务的指标,并在 Amazon Glue 和 Amazon CloudWatch 控制台上显示它们,以确定并修复问题。分析 Amazon Glue 作业需要执行以下步骤:

  1. 启用指标:

    1. 在作业定义中启用 Job metrics (作业指标) 选项。您可以在 Amazon Glue 控制台中启用分析,也可以作为作业的参数。有关更多信息,请参阅定义 Spark 作业的作业属性Amazon Glue 作业参数

    2. 在作业定义中启用 Amazon Glue 可观测性指标选项。您可以在 Amazon Glue 控制台中启用可观测性,也可以作为作业的参数。有关更多信息,请参阅使用 Amazon Glue 可观测性指标进行监控

  2. 确认作业脚本初始化 GlueContext。例如,以下脚本代码段初始化 GlueContext 并显示在脚本中放置已分析代码的位置。此常规格式用于后续的调试方案。

    import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job import time ## @params: [JOB_NAME] args = getResolvedOptions(sys.argv, ['JOB_NAME']) sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session job = Job(glueContext) job.init(args['JOB_NAME'], args) ... ... code-to-profile ... ... job.commit()
  3. 运行作业。

  4. 可视化指标:

    1. 在 Amazon Glue 控制台上显示作业指标,并确定驱动程序或执行程序的异常指标。

    2. 在作业运行监测页面、作业运行详细信息页面或 Amazon CloudWatch 上查看可观测性指标。有关更多信息,请参阅 使用 Amazon Glue 可观测性指标进行监控

  5. 使用已确定的指标缩小根本原因范围。

  6. 也可以选择使用已确定驱动程序或作业执行程序的日志流确认根本原因。

Amazon Glue 可观测性指标的用例