从 EMR Studio 控制台运行作业 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

从 EMR Studio 控制台运行作业

您可以向 EMR Serverless 应用程序提交作业运行并从 EMR Studio 控制台访问作业。要在 EMR Studio 控制台上创建或导航到 EMR Serverless 应用程序,请按照控制台入门中的说明操作。

提交任务

在 “提交作业” 页面上,按如下方式向 EMR Serverless 应用程序提交作业。

Spark
  1. 名称字段中,输入作业运行的名称。

  2. 运行时角色字段中,输入 EMR Serverless 应用程序在运行作业时可代入的 IAM 角色名称。要了解有关运行时角色的更多信息,请参阅Amazon EMR Serverless 的作业运行时角色

  3. 脚本位置字段中,输入要运行的脚本或 JAR 的 Amazon S3 位置。对于 Spark 作业,脚本可以是 Python(.py)文件或 JAR(.jar)文件。

  4. 如果脚本位置是 JAR 文件,请在主类字段中输入作为作业入口的类名。

  5. (可选)输入其余字段的值。

    • 脚本参数:输入要传递给主 JAR 或 Python 脚本的参数。您的代码会读取这些参数。用逗号分隔数组中的每个参数。

    • Spark 属性:展开 Spark 属性部分,在此字段中输入任何 Spark 配置参数。

      注意

      如果您指定 Spark 驱动程序和执行程序的大小,请考虑内存开销。在属性 spark.driver.memoryOverheadspark.executor.memoryOverhead 中指定内存开销值。内存开销的默认值为容器内存的 10%,最小为 384MB。执行程序内存和内存开销之和不能超过工作线程内存。例如,30GB 工作线程的最大 spark.executor.memory 必须为 27GB。

    • 作业配置:在此字段中指定任何作业配置。您可以使用这些作业配置覆盖应用程序的默认配置。

    • 其他设置:激活或停用作为元存储的 Amazon Glue Data Catalog,并修改应用程序日志设置。要了解有关元数据仓配置的更多信息,请参阅。EMR Serverless 的元存储配置要了解有关应用程序日志记录选项的更多信息,请参阅存储日志

    • 标签:为应用程序分配自定义标签。

  6. 选择提交作业

Hive
  1. 名称字段中,输入作业运行的名称。

  2. 运行时角色字段中,输入 EMR Serverless 应用程序在运行作业时可代入的 IAM 角色名称。

  3. 脚本位置字段中,输入要运行的脚本或 JAR 的 Amazon S3 位置。对于 Hive 作业,脚本必须是 Hive(.sql)文件。

  4. (可选)输入其余字段的值。

    • 初始化脚本位置:输入在 Hive 脚本运行之前初始化表的脚本位置。

    • Hive 属性:展开 Hive 属性部分,在此字段中输入任何 Hive 配置参数。

    • 作业配置:指定任何作业配置。您可以使用这些作业配置覆盖应用程序的默认配置。对于 Hive 作业,hive.exec.scratchdirhive.metastore.warehouse.dirhive-site 配置中的必需属性。

      { "applicationConfiguration": [ { "classification": "hive-site", "configurations": [], "properties": { "hive.exec.scratchdir": "s3://DOC-EXAMPLE_BUCKET/hive/scratch", "hive.metastore.warehouse.dir": "s3://DOC-EXAMPLE_BUCKET/hive/warehouse" } } ], "monitoringConfiguration": {} }
    • 其他设置-激活或停用 Amazon Glue 数据目录作为元数据仓并修改应用程序日志设置。要了解有关元数据仓配置的更多信息,请参阅。EMR Serverless 的元存储配置要了解有关应用程序日志记录选项的更多信息,请参阅存储日志

    • 标签:为应用程序分配任何自定义标签。

  5. 选择提交作业

访问任务运行

在应用程序详细信息页面上的 J ob runs 选项卡中,访问作业运行并为作业运行执行以下操作。

取消作业:要取消处于 RUNNING 状态的作业运行,请选择此选项。要了解有关任务运行过渡的更多信息,请参阅任务运行状态

克隆作业:要克隆之前的运行作业并重新提交,请选择此选项。