应用程序环境变量服务端口 Users 安装顺序、安装的构件和日志文件位置 Command Runner 重复因子

使用 Amazon EMR 的早期 AMI 版本自定义集群和应用程序配置

Amazon EMR 发行版 4.0.0 推出了使用配置分类的精简应用程序配置方法。有关更多信息，请参阅配置应用程序。当使用 AMI 版本时，使用引导操作以及您传递的参数配置应用程序。例如，configure-hadoop 和 configure-daemons 引导操作设置 Hadoop 和 YARN 特定环境属性（如 --namenode-heap-size）。在更新的版本中，这些属性是使用 hadoop-env 和 yarn-env 配置分类配置的。有关执行常见配置的引导操作，请参阅 Github 上的emr-bootstrap-actions 存储库。

以下各表将引导操作映射到更新的 Amazon EMR 发行版中的配置分类。

Hadoop
受影响的应用程序文件名	AMI 版本引导操作	配置分类
`core-site.xml`	`configure-hadoop -c`	`core-site`
`log4j.properties`	`configure-hadoop -l`	`hadoop-log4j`
`hdfs-site.xml`	`configure-hadoop -s`	`hdfs-site`
不适用	不适用	`hdfs-encryption-zones`
`mapred-site.xml`	`configure-hadoop -m`	`mapred-site`
`yarn-site.xml`	`configure-hadoop -y`	`yarn-site`
`httpfs-site.xml`	`configure-hadoop -t`	`httpfs-site`
`capacity-scheduler.xml`	`configure-hadoop -z`	`capacity-scheduler`
`yarn-env.sh`	`configure-daemons --resourcemanager-opts`	`yarn-env`

Hive
受影响的应用程序文件名	AMI 版本引导操作	配置分类
`hive-env.sh`	不适用	`hive-env`
`hive-site.xml`	`hive-script --install-hive-site ${MY_HIVE_SITE_FILE}`	`hive-site`
`hive-exec-log4j.properties`	不适用	`hive-exec-log4j`
`hive-log4j.properties`	不适用	`hive-log4j`

EMRFS
受影响的应用程序文件名	AMI 版本引导操作	配置分类
`emrfs-site.xml`	`configure-hadoop -e`	`emrfs-site`
不适用	`s3get -s s3://custom-provider.jar -d /usr/share/aws/emr/auxlib/`	`emrfs-site` (带新设置 `fs.s3.cse.encryptionMaterialsProvider.uri`)

有关所有分类的列表，请参阅配置应用程序。

应用程序环境变量

当使用 AMI 版本时，将结合使用 hadoop-user-env.sh 脚本与 configure-daemons 引导操作来配置 Hadoop 环境。该脚本包括以下操作：


#!/bin/bash 
export HADOOP_USER_CLASSPATH_FIRST=true; 
echo "HADOOP_CLASSPATH=/path/to/my.jar" >> /home/hadoop/conf/hadoop-user-env.sh

在 Amazon EMR 版本 4.x 中，使用 hadoop-env 配置分类执行相同的操作，如以下示例中所示：


[ 
      { 
         "Classification":"hadoop-env",
         "Properties":{ 

         },
         "Configurations":[ 
            { 
               "Classification":"export",
               "Properties":{ 
                  "HADOOP_USER_CLASSPATH_FIRST":"true",
                  "HADOOP_CLASSPATH":"/path/to/my.jar"
               }
            }
         ]
      }
   ]

再举一例，使用 configure-daemons 并传递 --namenode-heap-size=2048 和 --namenode-opts=-XX:GCTimeRatio=19 等效于以下配置分类。


[ 
      { 
         "Classification":"hadoop-env",
         "Properties":{ 

         },
         "Configurations":[ 
            { 
               "Classification":"export",
               "Properties":{ 
                  "HADOOP_DATANODE_HEAPSIZE":  "2048",
           	"HADOOP_NAMENODE_OPTS":  "-XX:GCTimeRatio=19"
               }
            }
         ]
      }
   ]

其他应用程序环境变量不再在 /home/hadoop/.bashrc 中定义。相反，它们主要在 /etc/default 文件中基于每个组件或应用程序设置，例如 /etc/default/hadoop。应用程序/usr/bin/安装的 Wrapper 脚本也 RPMs 可以在涉及实际的 bin 脚本之前设置其他环境变量。

服务端口

当使用 AMI 版本时，某些服务使用自定义端口。

端口设置中的更改
设置	AMI 版本 3.x	开源默认值
fs.default.name	hdfs://emrDeterminedIP:9000	默认 (hdfs: //: 8020`emrDeterminedIP`)
dfs.datanode.address	0.0.0.0:9200	默认值 (0.0.0.0:50010)
dfs.datanode.http.address	0.0.0.0:9102	默认值 (0.0.0.0:50075)
dfs.datanode.https.address	0.0.0.0:9402	默认值 (0.0.0.0:50475)
dfs.datanode.ipc.address	0.0.0.0:9201	默认值 (0.0.0.0:50020)
dfs.http.address	0.0.0.0:9101	默认值 (0.0.0.0:50070)
dfs.https.address	0.0.0.0:9202	默认值 (0.0.0.0:50470)
dfs.secondary.http.address	0.0.0.0:9104	默认值 (0.0.0.0:50090)
yarn.nodemanager.address	0.0.0.0:9103	默认值 (${yarn.nodemanager.hostname}:0)
yarn.nodemanager.localizer.address	0.0.0.0:9033	默认值 (${yarn.nodemanager.hostname}:8040)
yarn.nodemanager.webapp.address	0.0.0.0:9035	默认值 (${yarn.nodemanager.hostname}:8042)
yarn.resourcemanager.address	`emrDeterminedIP`:9022	默认值 (${yarn.resourcemanager.hostname}:8032)
yarn.resourcemanager.admin.address	`emrDeterminedIP`:9025	默认值 (${yarn.resourcemanager.hostname}:8033)
yarn.resourcemanager.resource-tracker.address	`emrDeterminedIP`:9023	默认值 (${yarn.resourcemanager.hostname}:8031)
yarn.resourcemanager.scheduler.address	`emrDeterminedIP`:9024	默认值 (${yarn.resourcemanager.hostname}:8030)
yarn.resourcemanager.webapp.address	0.0.0.0:9026	默认值 (${yarn.resourcemanager.hostname}:8088)
yarn.web-proxy.address	`emrDeterminedIP`:9046	默认值 (无值)
yarn.resourcemanager.hostname	0.0.0.0 (默认值)	`emrDeterminedIP`

注意

emrDeterminedIP是由 Amazon EMR 生成的 IP 地址。

Users

当使用 AMI 版本时，用户 hadoop 将运行所有进程并拥有所有文件。在 Amazon EMR 版本 4.0.0 及更高版本中，用户位于应用程序和组件级别。

安装顺序、安装的构件和日志文件位置

当使用 AMI 版本时，应用程序构件及其配置目录安装在 /home/hadoop/application 目录中。例如，如果已安装 Hive，目录将是 /home/hadoop/hive。在 Amazon EMR 版本 4.0.0 及更高版本中，应用程序构件安装在 /usr/lib/application 目录中。当使用 AMI 版本时，日志文件位于不同的位置。下表列出了位置。

Amazon S3 上的日志位置的更改
守护进程或应用程序	目录位置
instance-state	node/ /instance-state/ `instance-id`
hadoop-hdfs-namenode	daemons//.log `instance-id` hadoop-hadoop-namenode
hadoop-hdfs-datanode	daemons//.log `instance-id` hadoop-hadoop-datanode
hadoop-yarn () ResourceManager	守护进程//`instance-id`yarn-hadoop-resourcemanager
hadoop-yarn (代理服务器)	守护进程//`instance-id`yarn-hadoop-proxyserver
mapred-historyserver	守护进程//`instance-id`
httpfs	daemons/ /httpfs.log `instance-id`
hive-server	node/ /hive-server/hive-server.log `instance-id`
hive-metastore	node/ /apps/hive.log `instance-id`
Hive CLI	node/ /apps/hive.log `instance-id`
YARN 应用程序用户日志和容器日志	task-attempts/
Mahout	不适用
Pig	不适用
spark-historyserver	不适用
mapreduce 任务历史记录文件	jobs/

Command Runner

当使用 AMI 版本时，许多脚本或程序 (如 /home/hadoop/contrib/streaming/hadoop-streaming.jar) 未位于 shell 登录路径环境上，因此您需要在使用 jar 文件 (如 command-runner.jar 或 script-runner.jar) 执行脚本时指定完整路径。command-runner.jar 位于 AMI 上，因此无需知道完整 URI，这与 script-runner.jar 的情况相同。

重复因子

重复因子使您可以配置启动 Hadoop JVM 的时间。您可以为每个任务启动一个新的 Hadoop JVM，这样可以提供更好的任务隔离，或者可以在任务 JVMs 之间共享，从而降低框架开销。如果您处理的是许多小文件，合理的做法是多次重复使用 JVM，以摊销启动成本。然而，如果每项任务耗时较长或处理的数据量较大，您可以选择不重复使用 JVM，以确保释放出所有内存供后续任务使用。当使用 AMI 版本时，您可以使用 configure-hadoop 引导操作设置 mapred.job.reuse.jvm.num.tasks 属性来自定义重复因子。

以下示例演示如何设置无限 JVM 重复使用的 JVM 重复使用因子。

注意

为了便于读取，包含 Linux 行继续符（\）。它们可以通过 Linux 命令删除或使用。对于 Windows，请将它们删除或替换为脱字号（^）。


aws emr create-cluster --name "Test cluster" --ami-version 3.11.0 \
--applications Name=Hue Name=Hive Name=Pig \
--use-default-roles --ec2-attributes KeyName=myKey \
--instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType=m3.xlarge \
InstanceGroupType=CORE,InstanceCount=2,InstanceType=m3.xlarge \
--bootstrap-actions Path=s3://elasticmapreduce/bootstrap-actions/configure-hadoop,\
Name="Configuring infinite JVM reuse",Args=["-m","mapred.job.reuse.jvm.num.tasks=-1"]

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

安装应用程序

Hive