为 Amazon Glue 作业启用 Apache Spark Web UI - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 Amazon Glue 作业启用 Apache Spark Web UI

您可以使用 Apache Spark Web UI 监控和调试在 Amazon Glue 作业系统上运行的 Amazon Glue ETL 作业。您可以使用 Amazon Glue 控制台或 Amazon Command Line Interface (Amazon CLI) 配置 Spark UI。

Amazon Glue 每 30 秒将 Spark 事件日志备份到您指定的 Amazon S3 路径一次。

配置 Spark UI(控制台)

按照以下步骤使用 Amazon Web Services Management Console 配置 Spark UI。创建 Amazon Glue 任务后,将默认启用 Spark UI。

在创建或编辑任务时启用 Spark UI
  1. 登录 Amazon Web Services Management Console,然后打开 Amazon Glue 控制台,网址为:https://console.aws.amazon.com/glue/

  2. 在导航窗格中,选择作业

  3. 选择添加作业,或选择现有的作业。

  4. 作业详细信息中,打开高级属性

  5. Spark UI 选项卡下,选择将 Spark UI 日志写入 Amazon S3

  6. 指定用于存储任务的 Spark 事件日志的 Amazon S3 路径。请注意,如果您在任务中使用安全配置,则加密也将适用于 Spark UI 日志文件。有关更多信息,请参阅加密 Amazon Glue 写入的数据

  7. Spark UI 日志记录和监控配置下:

    • 如果要生成可在 Amazon Glue 控制台中查看的日志,请选择标准

    • 如果要生成可在 Spark 历史记录服务器上查看的日志,请选择传统

    • 您还可以选择同时生成这两种日志。

配置 Spark UI (Amazon CLI)

要生成可在 Amazon Glue 控制台中使用 Spark UI 查看的日志,请使用 Amazon CLI 将以下任务参数传递给 Amazon Glue 任务。有关更多信息,请参阅Amazon Glue 作业参数

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

要将日志分发到其遗留位置,请将 --enable-spark-ui-legacy-path 参数设置为 "true"。如果不需要同时生成两种格式的日志,请移除 --enable-spark-ui 参数。

为使用笔记本的会话配置 Spark 用户界面

警告

Amazon Glue 交互式会话目前不支持在控制台中使用 Spark UI。配置 Spark 历史记录服务器。

如果您使用 Amazon Glue 笔记本电脑,请在开始会话之前设置 SparkUI 配置。为此,请使用 %%configure 单元格魔术命令:

%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }