为 AWS Glue 作业启用 Apache Spark Web UI - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

为 AWS Glue 作业启用 Apache Spark Web UI

您可以使用 Apache Spark Web UI 监控和调试在 AWS Glue 作业系统上运行的 AWS Glue ETL 作业。您可以使用 AWS Glue 控制台或 AWS Command Line Interface (AWS CLI) 配置 Spark UI。

配置 Spark UI(控制台)

执行以下步骤以使用 AWS 管理控制台配置 Spark UI。

创建作业并启用 Spark UI

  1. 通过以下网址登录 AWS 管理控制台并打开 AWS Glue 控制台:https://console.amazonaws.cn/glue/

  2. 在导航窗格中,选择作业

  3. 选择添加作业

  4. Configure the job properties (配置作业属性) 中,打开 Monitoring options (监控选项)

  5. Spark UI 选项卡中,选择 Enable (启用)

  6. 指定用于存储作业的 Spark 事件日志的 Amazon S3 路径。

编辑现有作业以启用 Spark UI

  1. 通过以下网址打开 AWS Glue 控制台:https://console.amazonaws.cn/glue/

  2. 在导航窗格中,选择作业

  3. 选择作业列表中的现有作业。

  4. 选择 Action (操作),然后选择 Edit job (编辑作业)

  5. 打开 Monitoring options (监控选项)

  6. Spark UI 选项卡中,选择 Enable (启用)

  7. 输入用于存储作业的 Spark 事件日志的 Amazon S3 路径。

设置新作业的用户首选项以启用 Spark UI

  1. 通过以下网址打开 AWS Glue 控制台:https://console.amazonaws.cn/glue/

  2. 在右上角,选择用户首选项

  3. 打开 Monitoring options (监控选项)

  4. Spark UI 选项卡中,选择 Enable (启用)

  5. 指定用于存储作业的 Spark 事件日志的 Amazon S3 路径。

设置作业运行选项以启用 Spark UI

  1. 通过以下网址打开 AWS Glue 控制台:https://console.amazonaws.cn/glue/

  2. 在导航窗格中,选择作业

  3. 选择作业列表中的现有作业。

  4. 选择 Scripts (脚本)Edit Job (编辑作业)。导航到代码窗格。

  5. 选择 Run job (运行作业)

  6. 打开 Monitoring options (监控选项)

  7. Spark UI 选项卡中,选择 Enable (启用)

  8. 指定用于存储作业的 Spark 事件日志的 Amazon S3 路径。

配置 Spark UI (AWS CLI)

要使用 AWS CLI 启用 Spark UI 功能,请将以下作业参数传入 AWS Glue 作业中。有关更多信息,请参阅 AWS Glue 所使用的特殊参数

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

AWS Glue 每 30 秒将 Spark 事件日志刷新到您指定的 Amazon S3 路径一次。