使用控制台提交自定义 JAR 步骤启动集群并使用提交自定义 JAR 步骤 Amazon CLI 第三方依赖项

提交自定义 JAR 步骤

自定义 JAR 运行您能上载到 Amazon S3 的已编译 Java 程序。您应针对想启动的 Hadoop 版本编译该程序，并将 CUSTOM_JAR 步骤提交到 Amazon EMR 集群。有关如何编译 JAR 文件的更多信息，请参阅使用 Amazon EMR 构建二进制文件。

有关构建 Hadoop MapReduce 应用程序的更多信息，请参阅 Apache Hadoop 文档中的MapReduce 教程。

此部分介绍在 Amazon EMR 中提交自定义 JAR 步骤的基础知识。通过提交自定义 JAR 步骤，您可以使用 Java 编程语言编写用于处理数据的脚本。

使用控制台提交自定义 JAR 步骤

此示例介绍如何使用 Amazon EMR 控制台向正在运行的集群提交自定义 JAR 步骤。

使用控制台提交自定义 JAR 步骤

在 /emr 上打开亚马逊 EMR 控制台。https://console.aws.amazon.com
在 Cluster List (集群列表) 中，选择您的集群的名称。
滚动到 Steps (步骤) 部分并展开它，然后选择 Add step (添加步骤)。
在 Add step (添加步骤) 对话框中：
- 对于步骤类型，选择自定义 JAR。
- 对于 Name (名称)，接受默认名称（自定义 JAR）或键入新名称。
- 对于 JAR S3 location (JAR S3 位置)，键入或浏览到 JAR 文件的位置。JAR 位置可能是 S3 的路径或类路径中的完全限定的 java 类。
- 对于参数，以空格分隔的字符串形式键入任何所需参数，或将该字段保留为空白。
- 对于 Action on failure (出现故障时的操作)，接受默认选项 Continue (继续)。
选择添加。步骤会出现在控制台中，其状态为“Pending”。
步骤的状态会随着步骤的运行从“Pending”变为“Running”，再变为“Completed”。要更新状态，请选择 Actions (操作) 列上方的 Refresh (刷新) 图标。

启动集群并使用提交自定义 JAR 步骤 Amazon CLI

要启动集群并提交自定义 JAR 步骤，请使用 Amazon CLI

要启动集群并使用提交自定义 JAR 步骤 Amazon CLI，请键入带--steps参数的create-cluster子命令。

要启动集群并提交自定义 JAR 步骤，请键入以下命令，myKey替换为您的 EC2 密钥对的名称，然后amzn-s3-demo-bucket替换为您的存储桶名称。
```
aws emr create-cluster --name "Test cluster" --release-label emr-7.13.0 \
--applications Name=Hue Name=Hive Name=Pig --use-default-roles \
--ec2-attributes KeyName=myKey --instance-type m5.xlarge --instance-count 3 \
--steps Type=CUSTOM_JAR,Name="Custom JAR Step",ActionOnFailure=CONTINUE,Jar=pathtojarfile,Args=["pathtoinputdata","pathtooutputbucket","arg1","arg2"]
```
注意
为了便于读取，包含 Linux 行继续符（\）。它们可以通过 Linux 命令删除或使用。对于 Windows，请将它们删除或替换为脱字号（^）。

如果不使用 --instance-groups 参数指定实例计数，则将启动单个主节点，其余实例将作为核心节点启动。所有节点都使用您在命令中指定的实例类型。

注意
如果您之前未创建默认 Amazon EMR 服务角色和 EC2 实例配置文件，请先键入 aws emr create-default-roles 创建它们，然后再键入 create-cluster 子命令。

有关在中使用 Amazon EMR 命令的更多信息 Amazon CLI，请参阅。https://docs.amazonaws.cn/cli/latest/reference/emr

第三方依赖项

有时可能需要在 MapReduce 类路径 JARs 中包含以便与您的程序一起使用。您有两个选项来执行此操作：

将 --libjars s3://URI_to_JAR 包含在启动集群并使用提交自定义 JAR 步骤 Amazon CLI中的过程的步骤选项中。

使用 mapred-site.xml 中修改过的 mapreduce.application.classpath 设置启动集群。使用 mapred-site 配置分类。要使用步骤创建集群 Amazon CLI，如下所示：


aws emr create-cluster --release-label emr-7.13.0 \
--applications Name=Hue Name=Hive Name=Pig --use-default-roles \
--instance-type m5.xlarge --instance-count 2  --ec2-attributes KeyName=myKey \
--steps Type=CUSTOM_JAR,Name="Custom JAR Step",ActionOnFailure=CONTINUE,Jar=pathtojarfile,Args=["pathtoinputdata","pathtooutputbucket","arg1","arg2"] \
--configurations https://s3.amazonaws.com/amzn-s3-demo-bucket/myfolder/myConfig.json

myConfig.json:


[
    {
      "Classification": "mapred-site",
      "Properties": {
        "mapreduce.application.classpath": "path1,path2"
      }
    }
  ]

路径的逗号分隔的列表应追加到每个任务的 JVM 的类路径。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

使用自定义 JAR 处理数据

读取还原的对象

提交自定义 JAR 步骤

使用控制台提交自定义 JAR 步骤

使用控制台提交自定义 JAR 步骤

启动集群并使用提交自定义 JAR 步骤 Amazon CLI

要启动集群并提交自定义 JAR 步骤，请使用 Amazon CLI

注意

注意

第三方依赖项