为 Amazon Glue 作业启用 Apache Spark Web UI - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

为 Amazon Glue 作业启用 Apache Spark Web UI

您可以使用 Apache Spark Web UI 监控和调试在 Amazon Glue 作业系统上运行的 Amazon Glue ETL 作业。您可以使用 Amazon Glue 控制台或 Amazon Command Line Interface (Amazon CLI) 配置 Spark UI。

配置 Spark UI(控制台)

执行以下步骤以使用 Amazon Web Services Management Console配置 Spark UI。

创建作业并启用 Spark UI

  1. 登录Amazon Web Services Management Console,然后打开 Amazon Glue 控制台,网址为:https://console.aws.amazon.com/glue/

  2. 在导航窗格中,选择作业

  3. 选择添加作业

  4. Configure the job properties (配置作业属性) 中,打开 Monitoring options (监控选项)

  5. Spark UI 选项卡中,选择 Enable (启用)

  6. 指定用于存储任务的 Spark 事件日志的 Amazon S3 路径。

编辑现有作业以启用 Spark UI

  1. 打开 Amazon Glue 控制台,地址:https://console.aws.amazon.com/glue/

  2. 在导航窗格中,选择作业

  3. 选择作业列表中的现有作业。

  4. 选择 Action (操作),然后选择 Edit job (编辑作业)

  5. 打开 Monitoring options (监控选项)

  6. Spark UI 选项卡中,选择 Enable (启用)

  7. 输入用于存储任务的 Spark 事件日志的 Amazon S3 路径。

设置新作业的用户首选项以启用 Spark UI

  1. 打开 Amazon Glue 控制台,地址:https://console.aws.amazon.com/glue/

  2. 在右上角,选择用户首选项

  3. 打开 Monitoring options (监控选项)

  4. Spark UI 选项卡中,选择 Enable (启用)

  5. 指定用于存储任务的 Spark 事件日志的 Amazon S3 路径。

设置作业运行选项以启用 Spark UI

  1. 打开 Amazon Glue 控制台,地址:https://console.aws.amazon.com/glue/

  2. 在导航窗格中,选择作业

  3. 选择作业列表中的现有作业。

  4. 选择 Scripts (脚本)Edit Job (编辑作业)。导航到代码窗格。

  5. 选择 Run job(运行任务)。

  6. 打开 Monitoring options (监控选项)

  7. Spark UI 选项卡中,选择 Enable (启用)

  8. 指定用于存储任务的 Spark 事件日志的 Amazon S3 路径。

配置 Spark UI (Amazon CLI)

要使用 Amazon CLI 启用 Spark UI 功能,请将以下作业参数传入 Amazon Glue 作业中。有关更多信息,请参阅 Amazon Glue 所使用的特殊参数

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

Amazon Glue 每 30 秒将 Spark 事件日志刷新到您指定的 Amazon S3 路径一次。