Amazon EMR
Amazon EMR 版本指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

各个 Amazon EMR 4.x 发布版本的详细信息

下方的每个选项卡列出了每个 Amazon EMR 4.x 发布版本中可用的应用程序版本、发布说明、组件版本和配置分类。

有关每个版本中的应用程序版本的综合图,请参阅 4.x 系列 Amazon EMR 版本的应用程序版本 (PNG)

有关 Amazon EMR 4.x 发布版本与从 Amazon EMR 5.0.0 开始的版本之间的应用程序特定差异,请参阅 各 Amazon EMR 4.x 发行版之间的差异

4.9.x4.8.x 4.7.x4.6.04.5.04.4.04.3.04.2.04.1.04.0.0
4.9.x

4.9 系列中有多个版本。选择下方的链接以在此选项卡内查看特定发布版本的信息。

4.9.5 | 4.9.4 | 4.9.3 | 4.9.2 | 4.9.1

Amazon EMR 发布版本 4.9.5

发布版本 4.9.5 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPhoenixPigPresto-SandboxSparkSqoop-SandboxTezZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.9.5 发布说明

以下发行说明包括有关 Amazon EMR 发布版本 4.9.5 的信息。与 4.9.4 相关的更改。

首次发布日期:2018 年 8 月 29 日

更改、增强和解决的问题

  • HBase

    • 此发布版本解决了潜在的安全漏洞。

发布版本 4.9.5 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 4.3.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.2.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.3.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.17.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.3-amzn-2 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.3-amzn-2 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.3-amzn-2 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.3-amzn-2 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.3-amzn-2 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.3-amzn-2 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.3-amzn-2 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.3-amzn-2 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.3-amzn-2 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.3-amzn-2 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.2.2 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.2 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.2 HBase 命令行客户端。
hbase-rest-server 1.2.2 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.2 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-9 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-9 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-9 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-9 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-9 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-9 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-7 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.2 用于机器学习的库。
mysql-server 5.5.54+ MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.7.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.7.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权限以及协议缓冲区和 JSON 格式访问权限的轻量级服务器
presto-coordinator 0.157.1 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.157.1 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.3 Spark 命令行客户端。
spark-history-server 1.6.3 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.3 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.3 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.4 tez YARN 应用程序和库。
webserver 2.4.25+ Apache HTTP 服务器。
zeppelin-server 0.6.1 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.9 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.9 ZooKeeper 命令行客户端。

发布版本 4.9.5 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.9.5 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hadoop-ssl-server

更改 hadoop ssl 服务器配置

hadoop-ssl-client

更改 hadoop ssl 客户端配置

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hiveserver2-site

更改 Hive Server2 的 hiveserver2-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

phoenix-hbase-metrics

更改 Phoenix 的 hadoop-metrics2-hbase.properties 文件中的值。

phoenix-hbase-site

更改 Phoenix 的 hbase-site.xml 文件中的值。

phoenix-log4j

更改 Phoenix 的 log4j.properties 文件中的值。

phoenix-metrics

更改 Phoenix 的 hadoop-metrics2-phoenix.properties 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-blackhole

更改 Presto 的 blackhole.properties 文件中的值。

presto-connector-cassandra

更改 Presto 的 cassandra.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

presto-connector-jmx

更改 Presto 的 jmx.properties 文件中的值。

presto-connector-kafka

更改 Presto 的 kafka.properties 文件中的值。

presto-connector-localfile

更改 Presto 的 localfile.properties 文件中的值。

presto-connector-mongodb

更改 Presto 的 mongodb.properties 文件中的值。

presto-connector-mysql

更改 Presto 的 mysql.properties 文件中的值。

presto-connector-postgresql

更改 Presto 的 postgresql.properties 文件中的值。

presto-connector-raptor

更改 Presto 的 raptor.properties 文件中的值。

presto-connector-redis

更改 Presto 的 redis.properties 文件中的值。

presto-connector-tpch

更改 Presto 的 tpch.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

tez-site

更改 Tez 的 tez-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

Amazon EMR 发布版本 4.9.4

发布版本 4.9.4 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPhoenixPigPresto-SandboxSparkSqoop-SandboxTezZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.9.4 发布说明

以下发布说明包括 Amazon EMR 发布版 4.9.4 的信息。更改与版本 4.9.3 相关。

首次发布日期:2018 年 3 月 29 日

更改、增强和解决的问题

  • 更新了 Amazon EMR 的默认 Amazon Linux AMI 的 Amazon Linux 内核以消除潜在的安全漏洞。

发布版本 4.9.4 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 4.3.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.2.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.3.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.17.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.3-amzn-2 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.3-amzn-2 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.3-amzn-2 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.3-amzn-2 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.3-amzn-2 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.3-amzn-2 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.3-amzn-2 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.3-amzn-2 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.3-amzn-2 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.3-amzn-2 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.2.2 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.2 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.2 HBase 命令行客户端。
hbase-rest-server 1.2.2 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.2 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-9 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-9 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-9 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-9 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-9 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-9 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-7 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.2 用于机器学习的库。
mysql-server 5.5.54+ MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.7.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.7.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权限以及协议缓冲区和 JSON 格式访问权限的轻量级服务器
presto-coordinator 0.157.1 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.157.1 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.3 Spark 命令行客户端。
spark-history-server 1.6.3 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.3 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.3 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.4 tez YARN 应用程序和库。
webserver 2.4.25+ Apache HTTP 服务器。
zeppelin-server 0.6.1 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.9 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.9 ZooKeeper 命令行客户端。

发布版本 4.9.4 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.9.4 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hadoop-ssl-server

更改 hadoop ssl 服务器配置

hadoop-ssl-client

更改 hadoop ssl 客户端配置

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hiveserver2-site

更改 Hive Server2 的 hiveserver2-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

phoenix-hbase-metrics

更改 Phoenix 的 hadoop-metrics2-hbase.properties 文件中的值。

phoenix-hbase-site

更改 Phoenix 的 hbase-site.xml 文件中的值。

phoenix-log4j

更改 Phoenix 的 log4j.properties 文件中的值。

phoenix-metrics

更改 Phoenix 的 hadoop-metrics2-phoenix.properties 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-blackhole

更改 Presto 的 blackhole.properties 文件中的值。

presto-connector-cassandra

更改 Presto 的 cassandra.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

presto-connector-jmx

更改 Presto 的 jmx.properties 文件中的值。

presto-connector-kafka

更改 Presto 的 kafka.properties 文件中的值。

presto-connector-localfile

更改 Presto 的 localfile.properties 文件中的值。

presto-connector-mongodb

更改 Presto 的 mongodb.properties 文件中的值。

presto-connector-mysql

更改 Presto 的 mysql.properties 文件中的值。

presto-connector-postgresql

更改 Presto 的 postgresql.properties 文件中的值。

presto-connector-raptor

更改 Presto 的 raptor.properties 文件中的值。

presto-connector-redis

更改 Presto 的 redis.properties 文件中的值。

presto-connector-tpch

更改 Presto 的 tpch.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

tez-site

更改 Tez 的 tez-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

Amazon EMR 发布版本 4.9.3

发布版本 4.9.3 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPhoenixPigPresto-SandboxSparkSqoop-SandboxTezZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.9.3 发布说明

以下发行说明包括有关 Amazon EMR 4.9.3 版本的信息。更改与 Amazon EMR 4.9.2 版本相关。

首次发布日期:2018 年 1 月 22 日

更改、增强和解决的问题

发布版本 4.9.3 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 4.3.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.2.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.3.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.17.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.3-amzn-2 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.3-amzn-2 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.3-amzn-2 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.3-amzn-2 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.3-amzn-2 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.3-amzn-2 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.3-amzn-2 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.3-amzn-2 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.3-amzn-2 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.3-amzn-2 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.2.2 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.2 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.2 HBase 命令行客户端。
hbase-rest-server 1.2.2 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.2 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-9 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-9 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-9 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-9 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-9 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-9 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-7 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.2 用于机器学习的库。
mysql-server 5.5.54+ MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.7.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.7.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权限以及协议缓冲区和 JSON 格式访问权限的轻量级服务器
presto-coordinator 0.157.1 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.157.1 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.3 Spark 命令行客户端。
spark-history-server 1.6.3 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.3 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.3 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.4 tez YARN 应用程序和库。
webserver 2.4.25+ Apache HTTP 服务器。
zeppelin-server 0.6.1 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.9 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.9 ZooKeeper 命令行客户端。

发布版本 4.9.3 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.9.3 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hadoop-ssl-server

更改 hadoop ssl 服务器配置

hadoop-ssl-client

更改 hadoop ssl 客户端配置

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hiveserver2-site

更改 Hive Server2 的 hiveserver2-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

phoenix-hbase-metrics

更改 Phoenix 的 hadoop-metrics2-hbase.properties 文件中的值。

phoenix-hbase-site

更改 Phoenix 的 hbase-site.xml 文件中的值。

phoenix-log4j

更改 Phoenix 的 log4j.properties 文件中的值。

phoenix-metrics

更改 Phoenix 的 hadoop-metrics2-phoenix.properties 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-blackhole

更改 Presto 的 blackhole.properties 文件中的值。

presto-connector-cassandra

更改 Presto 的 cassandra.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

presto-connector-jmx

更改 Presto 的 jmx.properties 文件中的值。

presto-connector-kafka

更改 Presto 的 kafka.properties 文件中的值。

presto-connector-localfile

更改 Presto 的 localfile.properties 文件中的值。

presto-connector-mongodb

更改 Presto 的 mongodb.properties 文件中的值。

presto-connector-mysql

更改 Presto 的 mysql.properties 文件中的值。

presto-connector-postgresql

更改 Presto 的 postgresql.properties 文件中的值。

presto-connector-raptor

更改 Presto 的 raptor.properties 文件中的值。

presto-connector-redis

更改 Presto 的 redis.properties 文件中的值。

presto-connector-tpch

更改 Presto 的 tpch.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

tez-site

更改 Tez 的 tez-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

发布版本 4.9.2

发布版本 4.9.2 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPhoenixPigPresto-SandboxSparkSqoop-SandboxTezZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.9.2 发布说明

以下发行说明包括有关 Amazon EMR 4.9.2 版本的信息。更改与 Amazon EMR 4.9.1 版本相关。

发行日期:2017 年 7 月 13 日

此版本略微进行了一些改动、错误修复和增强。

发布版本 4.9.2 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 4.3.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.2.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.3.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.17.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.3-amzn-2 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.3-amzn-2 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.3-amzn-2 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.3-amzn-2 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.3-amzn-2 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.3-amzn-2 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.3-amzn-2 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.3-amzn-2 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.3-amzn-2 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.3-amzn-2 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.2.2 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.2 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.2 HBase 命令行客户端。
hbase-rest-server 1.2.2 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.2 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-9 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-9 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-9 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-9 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-9 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-9 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-7 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.2 用于机器学习的库。
mysql-server 5.5.54+ MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.7.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.7.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权限以及协议缓冲区和 JSON 格式访问权限的轻量级服务器
presto-coordinator 0.157.1 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.157.1 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.3 Spark 命令行客户端。
spark-history-server 1.6.3 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.3 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.3 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.4 tez YARN 应用程序和库。
webserver 2.4.25+ Apache HTTP 服务器。
zeppelin-server 0.6.1 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.9 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.9 ZooKeeper 命令行客户端。

发布版本 4.9.2 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.9.2 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hadoop-ssl-server

更改 hadoop ssl 服务器配置

hadoop-ssl-client

更改 hadoop ssl 客户端配置

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hiveserver2-site

更改 Hive Server2 的 hiveserver2-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

phoenix-hbase-metrics

更改 Phoenix 的 hadoop-metrics2-hbase.properties 文件中的值。

phoenix-hbase-site

更改 Phoenix 的 hbase-site.xml 文件中的值。

phoenix-log4j

更改 Phoenix 的 log4j.properties 文件中的值。

phoenix-metrics

更改 Phoenix 的 hadoop-metrics2-phoenix.properties 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-blackhole

更改 Presto 的 blackhole.properties 文件中的值。

presto-connector-cassandra

更改 Presto 的 cassandra.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

presto-connector-jmx

更改 Presto 的 jmx.properties 文件中的值。

presto-connector-kafka

更改 Presto 的 kafka.properties 文件中的值。

presto-connector-localfile

更改 Presto 的 localfile.properties 文件中的值。

presto-connector-mongodb

更改 Presto 的 mongodb.properties 文件中的值。

presto-connector-mysql

更改 Presto 的 mysql.properties 文件中的值。

presto-connector-postgresql

更改 Presto 的 postgresql.properties 文件中的值。

presto-connector-raptor

更改 Presto 的 raptor.properties 文件中的值。

presto-connector-redis

更改 Presto 的 redis.properties 文件中的值。

presto-connector-tpch

更改 Presto 的 tpch.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

tez-site

更改 Tez 的 tez-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

发布版本 4.9.1

发布版本 4.9.1 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPhoenixPigPresto-SandboxSparkSqoop-SandboxTezZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.9.1 发布说明

以下发行说明包括有关 Amazon EMR 4.9.1 版本的信息。更改与 Amazon EMR 4.8.4 版本相关。

发行日期:2017 年 4 月 10 日

早期版本中已解决的已知问题

  • 逆向移植 HIVE-9976HIVE-10106

  • 修复了 YARN 中的一个问题,即,大量节点 (大于 2000 个) 和容器 (大于 5000 个) 会导致内存不足错误,例如:"Exception in thread main java.lang.OutOfMemoryError"

更改和增强功能

发布版本 4.9.1 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 4.2.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.2.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.3.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.15.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.3-amzn-2 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.3-amzn-2 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.3-amzn-2 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.3-amzn-2 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.3-amzn-2 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.3-amzn-2 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.3-amzn-2 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.3-amzn-2 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.3-amzn-2 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.3-amzn-2 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.2.2 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.2 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.2 HBase 命令行客户端。
hbase-rest-server 1.2.2 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.2 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-9 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-9 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-9 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-9 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-9 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-9 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-7 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.2 用于机器学习的库。
mysql-server 5.5.54+ MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.7.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.7.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权以及协议缓冲区和 JSON 格式访问权的轻量级服务器
presto-coordinator 0.157.1 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.157.1 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.3 Spark 命令行客户端。
spark-history-server 1.6.3 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.3 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.3 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.4 tez YARN 应用程序和库。
webserver 2.4.25+ Apache HTTP 服务器。
zeppelin-server 0.6.1 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.9 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.9 ZooKeeper 命令行客户端。

发布版本 4.9.1 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.8.5 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hadoop-ssl-server

更改 hadoop ssl 服务器配置

hadoop-ssl-client

更改 hadoop ssl 客户端配置

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hiveserver2-site

更改 Hive Server2 的 hiveserver2-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

phoenix-hbase-metrics

更改 Phoenix 的 hadoop-metrics2-hbase.properties 文件中的值。

phoenix-hbase-site

更改 Phoenix 的 hbase-site.xml 文件中的值。

phoenix-log4j

更改 Phoenix 的 log4j.properties 文件中的值。

phoenix-metrics

更改 Phoenix 的 hadoop-metrics2-phoenix.properties 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-blackhole

更改 Presto 的 blackhole.properties 文件中的值。

presto-connector-cassandra

更改 Presto 的 cassandra.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

presto-connector-jmx

更改 Presto 的 jmx.properties 文件中的值。

presto-connector-kafka

更改 Presto 的 kafka.properties 文件中的值。

presto-connector-localfile

更改 Presto 的 localfile.properties 文件中的值。

presto-connector-mongodb

更改 Presto 的 mongodb.properties 文件中的值。

presto-connector-mysql

更改 Presto 的 mysql.properties 文件中的值。

presto-connector-postgresql

更改 Presto 的 postgresql.properties 文件中的值。

presto-connector-raptor

更改 Presto 的 raptor.properties 文件中的值。

presto-connector-redis

更改 Presto 的 redis.properties 文件中的值。

presto-connector-tpch

更改 Presto 的 tpch.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

tez-site

更改 Tez 的 tez-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

4.8.x

4.8 系列中有多个版本。选择下方的链接以在此选项卡内查看特定发布版本的信息。

4.8.4 | 4.8.3 | 4.8.2 | 4.8.0

Amazon EMR 发布版本 4.8.4

发布版本 4.8.4 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPhoenixPigPresto-SandboxSparkSqoop-SandboxTezZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.8.4 发布说明

以下发行说明包括有关 Amazon EMR 4.8.4 版本的信息。更改与 Amazon EMR 4.8.3 版本相关。

发布日期:2017 年 2 月 7 日

此版本略微进行了一些改动、错误修复和增强。

发布版本 4.8.4 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 4.2.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.2.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.2.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs emrfs 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.3-amzn-1 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.3-amzn-1 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.3-amzn-1 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.3-amzn-1 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.3-amzn-1 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.3-amzn-1 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.3-amzn-1 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.3-amzn-1 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.3-amzn-1 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.3-amzn-1 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.2.2 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.2 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.2 HBase 命令行客户端。
hbase-rest-server 1.2.2 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.2 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-8 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-8 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-8 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-8 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-8 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-8 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-7 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.2 用于机器学习的库。
mysql-server 5.5.54+ MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.7.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.7.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权限以及协议缓冲区和 JSON 格式访问权限的轻量级服务器
presto-coordinator 0.157.1 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.157.1 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.3 Spark 命令行客户端。
spark-history-server 1.6.3 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.3 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.3 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.4 tez YARN 应用程序和库。
webserver 2.4.25+ Apache HTTP 服务器。
zeppelin-server 0.6.1 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.9 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.9 ZooKeeper 命令行客户端。

发布版本 4.8.4 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.8.4 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hadoop-ssl-server

更改 hadoop ssl 服务器配置

hadoop-ssl-client

更改 hadoop ssl 客户端配置

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hiveserver2-site

更改 Hive Server2 的 hiveserver2-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

phoenix-hbase-metrics

更改 Phoenix 的 hadoop-metrics2-hbase.properties 文件中的值。

phoenix-hbase-site

更改 Phoenix 的 hbase-site.xml 文件中的值。

phoenix-log4j

更改 Phoenix 的 log4j.properties 文件中的值。

phoenix-metrics

更改 Phoenix 的 hadoop-metrics2-phoenix.properties 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-blackhole

更改 Presto 的 blackhole.properties 文件中的值。

presto-connector-cassandra

更改 Presto 的 cassandra.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

presto-connector-jmx

更改 Presto 的 jmx.properties 文件中的值。

presto-connector-kafka

更改 Presto 的 kafka.properties 文件中的值。

presto-connector-localfile

更改 Presto 的 localfile.properties 文件中的值。

presto-connector-mongodb

更改 Presto 的 mongodb.properties 文件中的值。

presto-connector-mysql

更改 Presto 的 mysql.properties 文件中的值。

presto-connector-postgresql

更改 Presto 的 postgresql.properties 文件中的值。

presto-connector-raptor

更改 Presto 的 raptor.properties 文件中的值。

presto-connector-redis

更改 Presto 的 redis.properties 文件中的值。

presto-connector-tpch

更改 Presto 的 tpch.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

tez-site

更改 Tez 的 tez-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

Amazon EMR 发布版本 4.8.3

发布版本 4.8.3 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPhoenixPigPresto-SandboxSparkSqoop-SandboxTezZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.8.3 发布说明

以下发行说明包括有关 Amazon EMR 4.8.3 版本的信息。更改与 Amazon EMR 4.8.2 版本相关。

发行日期:2016 年 12 月 29 日

升级

  • 已升级到 Presto 0.157.1。有关更多信息,请参阅 Presto 文档中的 Presto 发行说明

  • 已升级到 Spark 1.6.3。有关更多信息,请参阅 Apache Spark 文档中的 Spark 发行说明

  • 已升级到 ZooKeeper 3.4.9。有关更多信息,请参阅 Apache ZooKeeper 文档中的 ZooKeeper 发行说明

更改和增强功能

早期版本中已解决的已知问题

  • 修复了 Hadoop 中的一个问题,即 ReplicationMonitor 线程可能会因为在大型集群中复制和删除同一个文件导致的竞争而卡住很长时间。

  • 修复了在作业状态未成功更新时 ControlledJob#toString 出现空指针异常 (NPE) 失败的问题。

发布版本 4.8.3 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 4.2.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.2.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.2.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.13.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.3-amzn-1 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.3-amzn-1 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.3-amzn-1 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.3-amzn-1 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.3-amzn-1 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.3-amzn-1 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.3-amzn-1 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.3-amzn-1 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.3-amzn-1 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.3-amzn-1 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.2.2 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.2 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.2 HBase 命令行客户端。
hbase-rest-server 1.2.2 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.2 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-8 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-8 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-8 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-8 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-8 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-8 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-7 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.2 用于机器学习的库。
mysql-server 5.5.52 MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.7.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.7.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权限以及协议缓冲区和 JSON 格式访问权限的轻量级服务器
presto-coordinator 0.157.1 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.157.1 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.3 Spark 命令行客户端。
spark-history-server 1.6.3 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.3 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.3 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.4 tez YARN 应用程序和库。
webserver 2.4.23 Apache HTTP 服务器。
zeppelin-server 0.6.1 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.9 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.9 ZooKeeper 命令行客户端。

发布版本 4.8.3 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.8.3 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hadoop-ssl-server

更改 hadoop ssl 服务器配置

hadoop-ssl-client

更改 hadoop ssl 客户端配置

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hiveserver2-site

更改 Hive Server2 的 hiveserver2-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

phoenix-hbase-metrics

更改 Phoenix 的 hadoop-metrics2-hbase.properties 文件中的值。

phoenix-hbase-site

更改 Phoenix 的 hbase-site.xml 文件中的值。

phoenix-log4j

更改 Phoenix 的 log4j.properties 文件中的值。

phoenix-metrics

更改 Phoenix 的 hadoop-metrics2-phoenix.properties 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-blackhole

更改 Presto 的 blackhole.properties 文件中的值。

presto-connector-cassandra

更改 Presto 的 cassandra.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

presto-connector-jmx

更改 Presto 的 jmx.properties 文件中的值。

presto-connector-kafka

更改 Presto 的 kafka.properties 文件中的值。

presto-connector-localfile

更改 Presto 的 localfile.properties 文件中的值。

presto-connector-mongodb

更改 Presto 的 mongodb.properties 文件中的值。

presto-connector-mysql

更改 Presto 的 mysql.properties 文件中的值。

presto-connector-postgresql

更改 Presto 的 postgresql.properties 文件中的值。

presto-connector-raptor

更改 Presto 的 raptor.properties 文件中的值。

presto-connector-redis

更改 Presto 的 redis.properties 文件中的值。

presto-connector-tpch

更改 Presto 的 tpch.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

tez-site

更改 Tez 的 tez-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

Amazon EMR 发布版本 4.8.2

发布版本 4.8.2 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPhoenixPigPresto-SandboxSparkSqoop-SandboxTezZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.8.2 发布说明

以下发行说明包括有关 Amazon EMR 4.8.2 版本的信息。更改与 Amazon EMR 4.8.2 版本相关。

发行日期:2016 年 10 月 24 日

升级

  • 已升级到 Hadoop 2.7.3

  • 已升级到 Presto 0.152.3,它包括对 Presto Web 界面的支持。可使用端口 8889 访问 Presto 协调器上的 Presto Web 界面。有关 Presto Web 界面的更多信息,请参阅 Presto 文档中的 Web 界面

  • Amazon EMR 版本现在基于 Amazon Linux 2016.09。有关更多信息,请参阅 https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/

发布版本 4.8.2 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 4.1.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.1.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.2.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.10.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.3-amzn-0 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.3-amzn-0 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.3-amzn-0 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.3-amzn-0 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.3-amzn-0 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.3-amzn-0 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.3-amzn-0 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.3-amzn-0 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.3-amzn-0 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.3-amzn-0 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.2.2 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.2 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.2 HBase 命令行客户端。
hbase-rest-server 1.2.2 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.2 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-7 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-7 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-7 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-7 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-7 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-7 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-7 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.2 用于机器学习的库。
mysql-server 5.5.52 MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.7.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.7.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权限以及协议缓冲区和 JSON 格式访问权限的轻量级服务器
presto-coordinator 0.152.3 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.152.3 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.2 Spark 命令行客户端。
spark-history-server 1.6.2 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.2 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.2 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.4 tez YARN 应用程序和库。
webserver 2.4.23 Apache HTTP 服务器。
zeppelin-server 0.6.1 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.8 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.8 ZooKeeper 命令行客户端。

发布版本 4.8.2 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.8.2 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hadoop-ssl-server

更改 hadoop ssl 服务器配置

hadoop-ssl-client

更改 hadoop ssl 客户端配置

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hiveserver2-site

更改 Hive Server2 的 hiveserver2-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

phoenix-hbase-metrics

更改 Phoenix 的 hadoop-metrics2-hbase.properties 文件中的值。

phoenix-hbase-site

更改 Phoenix 的 hbase-site.xml 文件中的值。

phoenix-log4j

更改 Phoenix 的 log4j.properties 文件中的值。

phoenix-metrics

更改 Phoenix 的 hadoop-metrics2-phoenix.properties 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-blackhole

更改 Presto 的 blackhole.properties 文件中的值。

presto-connector-cassandra

更改 Presto 的 cassandra.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

presto-connector-jmx

更改 Presto 的 jmx.properties 文件中的值。

presto-connector-kafka

更改 Presto 的 kafka.properties 文件中的值。

presto-connector-localfile

更改 Presto 的 localfile.properties 文件中的值。

presto-connector-mongodb

更改 Presto 的 mongodb.properties 文件中的值。

presto-connector-mysql

更改 Presto 的 mysql.properties 文件中的值。

presto-connector-postgresql

更改 Presto 的 postgresql.properties 文件中的值。

presto-connector-raptor

更改 Presto 的 raptor.properties 文件中的值。

presto-connector-redis

更改 Presto 的 redis.properties 文件中的值。

presto-connector-tpch

更改 Presto 的 tpch.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

tez-site

更改 Tez 的 tez-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

Amazon EMR 发布版本 4.8.0

发布版本 4.8.0 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPhoenixPigPresto-SandboxSparkSqoop-SandboxTezZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.8.0 发布说明

以下发行说明包括有关 Amazon EMR 4.8.0 版本的信息。更改与 Amazon EMR 4.7.2 版本相关。

发行日期:2016 年 9 月 7 日

升级

  • 已升级到 HBase 1.2.2

  • 已升级到 Presto-Sandbox 0.151

  • 已升级到 Tez 0.8.4

  • 已升级到 Zeppelin-Sandbox 0.6.1

更改和增强功能

  • 修复了 YARN 中的一个问题,ApplicationMaster 将在其中尝试清除不再存在的容器,因为它们的实例已终止。

  • 更正了 Oozie 示例中 Hive2 操作的 hive-server2 URL。

  • 添加了对其他 Presto 目录的支持。

  • 已逆向移植修补程序:HIVE-8948HIVE-12679HIVE-13405PHOENIX-3116HADOOP-12689

  • 添加了对安全配置的支持,这使您可以更轻松地创建和应用加密选项。有关更多信息,请参阅 Data Encryption

发布版本 4.8.0 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 3.2.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.1.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.2.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.9.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.2-amzn-4 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.2-amzn-4 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.2-amzn-4 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.2-amzn-4 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.2-amzn-4 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.2-amzn-4 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.2-amzn-4 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.2-amzn-4 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.2-amzn-4 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.2-amzn-4 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.2.2 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.2 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.2 HBase 命令行客户端。
hbase-rest-server 1.2.2 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.2 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-7 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-7 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-7 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-7 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-7 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-7 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-7 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.2 用于机器学习的库。
mysql-server 5.5.51 MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.7.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.7.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权限以及协议缓冲区和 JSON 格式访问权限的轻量级服务器
presto-coordinator 0.151 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.151 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.2 Spark 命令行客户端。
spark-history-server 1.6.2 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.2 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.2 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.4 tez YARN 应用程序和库。
webserver 2.4.23 Apache HTTP 服务器。
zeppelin-server 0.6.1 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.8 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.8 ZooKeeper 命令行客户端。

发布版本 4.8.0 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.8.0 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hadoop-ssl-server

更改 hadoop ssl 服务器配置

hadoop-ssl-client

更改 hadoop ssl 客户端配置

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hiveserver2-site

更改 Hive Server2 的 hiveserver2-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

phoenix-hbase-metrics

更改 Phoenix 的 hadoop-metrics2-hbase.properties 文件中的值。

phoenix-hbase-site

更改 Phoenix 的 hbase-site.xml 文件中的值。

phoenix-log4j

更改 Phoenix 的 log4j.properties 文件中的值。

phoenix-metrics

更改 Phoenix 的 hadoop-metrics2-phoenix.properties 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-blackhole

更改 Presto 的 blackhole.properties 文件中的值。

presto-connector-cassandra

更改 Presto 的 cassandra.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

presto-connector-jmx

更改 Presto 的 jmx.properties 文件中的值。

presto-connector-kafka

更改 Presto 的 kafka.properties 文件中的值。

presto-connector-localfile

更改 Presto 的 localfile.properties 文件中的值。

presto-connector-mongodb

更改 Presto 的 mongodb.properties 文件中的值。

presto-connector-mysql

更改 Presto 的 mysql.properties 文件中的值。

presto-connector-postgresql

更改 Presto 的 postgresql.properties 文件中的值。

presto-connector-raptor

更改 Presto 的 raptor.properties 文件中的值。

presto-connector-redis

更改 Presto 的 redis.properties 文件中的值。

presto-connector-tpch

更改 Presto 的 tpch.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

tez-site

更改 Tez 的 tez-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

4.7.x

4.7 系列中有多个版本。选择下方的链接以在此选项卡内查看特定发布版本的信息。

4.7.2 | 4.7.1 | 4.7.1

Amazon EMR 发布版本 4.7.2

发布版本 4.7.2 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPhoenixPigPresto-SandboxSparkSqoop-SandboxTezZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.7.2 发布说明

以下发行说明包括有关 Amazon EMR 4.7.2 的信息。

发行日期:2016 年 7 月 15 日

功能

  • 已升级到 Mahout 0.12.2

  • 已升级到 Presto 0.148

  • 已升级到 Spark 1.6.2

  • 您现在可以使用 URI 作为参数来创建将与 EMRFS 配合使用的 AWSCredentialsProvider。有关更多信息,请参阅为 EMRFS 创建 AWSCredentialsProvider

  • EMRFS 现在允许用户使用 fs.s3.consistent.dynamodb.endpoint 中的 emrfs-site.xml 属性来为其一致视图元数据配置自定义 DynamoDB 终端节点。

  • /usr/bin 中添加了一个名为 spark-example 的脚本,它将包装 /usr/lib/spark/spark/bin/run-example,因此您可以直接运行示例。例如,要运行 Spark 分配的附带的 SparkPi 示例,可从命令行或使用 spark-example SparkPi 100command-runner.jar 作为 API 中的一个步骤运行。

早期版本中已解决的已知问题

  • 修复了 Oozie 在安装 Spark 后拥有的 spark-assembly.jar 未位于正确位置 (这导致使用 Oozie 启动 Spark 应用程序失败) 的问题。

  • 修复了与 YARN 容器中基于 Spark Log4j 的登录有关的问题。

发布版本 4.7.2 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 3.2.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.1.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.2.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.8.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.2-amzn-3 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.2-amzn-3 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.2-amzn-3 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.2-amzn-3 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.2-amzn-3 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.2-amzn-3 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.2-amzn-3 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.2-amzn-3 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.2-amzn-3 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.2-amzn-3 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.2.1 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.1 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.1 HBase 命令行客户端。
hbase-rest-server 1.2.1 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.1 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-6 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-6 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-6 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-6 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-6 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-6 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-7 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.2 用于机器学习的库。
mysql-server 5.5.46 MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.7.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.7.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权限以及协议缓冲区和 JSON 格式访问权限的轻量级服务器
presto-coordinator 0.148 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.148 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.2 Spark 命令行客户端。
spark-history-server 1.6.2 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.2 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.2 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.3 tez YARN 应用程序和库。
webserver 2.4.23 Apache HTTP 服务器。
zeppelin-server 0.5.6-incubating 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.8 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.8 ZooKeeper 命令行客户端。

发布版本 4.7.2 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.7.2 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hadoop-ssl-server

更改 hadoop ssl 服务器配置

hadoop-ssl-client

更改 hadoop ssl 客户端配置

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

phoenix-hbase-metrics

更改 Phoenix 的 hadoop-metrics2-hbase.properties 文件中的值。

phoenix-hbase-site

更改 Phoenix 的 hbase-site.xml 文件中的值。

phoenix-log4j

更改 Phoenix 的 log4j.properties 文件中的值。

phoenix-metrics

更改 Phoenix 的 hadoop-metrics2-phoenix.properties 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

tez-site

更改 Tez 的 tez-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

Amazon EMR 发布版本 4.7.1

发布版本 4.7.1 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPhoenixPigPresto-SandboxSparkSqoop-SandboxTezZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.7.1 发布说明

以下发行说明包括有关 Amazon EMR 4.7.1 的信息。

发行日期:2016 年 6 月 10 日

早期版本中已解决的已知问题

  • 修复了延长带有私有子网的 VPC 中启动的集群的启动时间的问题。此错误仅影响使用 Amazon EMR 4.7.0 版本启动的集群。

  • 修复了在 Amazon EMR 中错误处理针对使用 Amazon EMR 4.7.0 版本启动的集群的文件列表的问题。

发布版本 4.7.1 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 3.1.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.0.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.2.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.7.1 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.2-amzn-2 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.2-amzn-2 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.2-amzn-2 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.2-amzn-2 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.2-amzn-2 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.2-amzn-2 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.2-amzn-2 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.2-amzn-2 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.2-amzn-2 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.2-amzn-2 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.2.1 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.1 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.1 HBase 命令行客户端。
hbase-rest-server 1.2.1 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.1 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-5 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-5 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-5 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-5 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-5 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-5 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-7 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.0 用于机器学习的库。
mysql-server 5.5.46 MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.7.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.7.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权限以及协议缓冲区和 JSON 格式访问权限的轻量级服务器
presto-coordinator 0.147 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.147 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.1 Spark 命令行客户端。
spark-history-server 1.6.1 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.1 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.1 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.3 tez YARN 应用程序和库。
webserver 2.4.18 Apache HTTP 服务器。
zeppelin-server 0.5.6-incubating 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.8 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.8 ZooKeeper 命令行客户端。

发布版本 4.7.1 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.7.1 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

phoenix-hbase-metrics

更改 Phoenix 的 hadoop-metrics2-hbase.properties 文件中的值。

phoenix-hbase-site

更改 Phoenix 的 hbase-site.xml 文件中的值。

phoenix-log4j

更改 Phoenix 的 log4j.properties 文件中的值。

phoenix-metrics

更改 Phoenix 的 hadoop-metrics2-phoenix.properties 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

tez-site

更改 Tez 的 tez-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

Amazon EMR 发布版本 4.7.0

发布版本 4.7.0 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPhoenixPigPresto-SandboxSparkSqoop-SandboxTezZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.7.0 发布说明

重要

Amazon EMR 4.7.0 已被弃用。请改用 Amazon EMR 4.7.1 或更高版本。

发行日期:2016 年 6 月 2 日

功能

  • 已添加 Apache Phoenix 4.7.0

  • 已添加 Apache Tez 0.8.3

  • 已升级到 HBase 1.2.1

  • 已升级到 Mahout 0.12.0

  • 已升级到 Presto 0.147

  • 已将 AWS SDK for Java 升级到 1.10.75

  • 已从 mapreduce.cluster.local.dir 中的 mapred-site.xml 属性中删除最终标志以允许用户以本地模式运行 Pig。

  • 集群上可用的 Amazon Redshift JDBC 驱动程序

    Amazon Redshift JDBC 驱动程序现在包含在 /usr/share/aws/redshift/jdbc 中。/usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar 是与 JDBC 4.1 兼容的 Amazon Redshift 驱动程序,/usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar 是与 JDBC 4.0 兼容的 Amazon Redshift 驱动程序。有关更多信息,请参阅 Amazon Redshift Cluster Management Guide 中的配置 JDBC 连接

  • Java 8

    OpenJDK 1.7 是用于所有应用程序 (Presto 除外) 的默认 JDK。但是,将同时安装 OpenJDK 1.7 和 1.8。有关如何为应用程序设置 JAVA_HOME 的信息,请参阅配置应用程序以使用 Java 8

早期版本中已解决的已知问题

  • 修复了已明显影响 emr-4.6.0 中的 Amazon EMR 的吞吐量优化 HDD (st1) EBS 卷上的性能的内核问题。

  • 修复了在不选择 Hadoop 作为应用程序的情况下指定任何 HDFS 加密区域时集群将失败的问题。

  • 已将默认 HDFS 编写策略从 RoundRobin 更改为 AvailableSpaceVolumeChoosingPolicy。未通过 RoundRobin 配置正确利用某些卷,这将导致核心节点失败且 HDFS 不可靠。

  • 修复了与 EMRFS CLI 有关的问题,此问题将在创建默认 DynamoDB 元数据表以获得一致视图时导致异常。

  • 修复了在分段重命名和复制操作期间可能发生在 EMRFS 中的死锁问题。

  • 修复了与 EMRFS 有关的问题,此问题导致 CopyPart 大小默认为 5 MB。默认值现已相应地设置为 128 MB。

  • 修复了与 Zeppelin upstart 配置有关的问题,此问题可能会阻止您停止服务。

  • 修复了与 Spark 和 Zeppelin 有关的问题,此问题会阻止您使用 s3a:// URI 方案,因为 /usr/lib/hadoop/hadoop-aws.jar 未在其各自的类路径中正确加载。

  • 已逆向移植 HUE-2484

  • 已从 Hue 3.9.0 (不存在 JIRA) 逆向移植 commit 来修复与 HBase 浏览器示例有关的问题。

  • 已逆向移植 HIVE-9073

发布版本 4.7.0 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 3.1.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.0.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.2.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.7.1 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.2-amzn-2 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.2-amzn-2 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.2-amzn-2 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.2-amzn-2 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.2-amzn-2 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.2-amzn-2 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.2-amzn-2 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.2-amzn-2 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.2-amzn-2 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.2-amzn-2 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.2.1 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.1 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.1 HBase 命令行客户端。
hbase-rest-server 1.2.1 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.1 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-5 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-5 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-5 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-5 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-5 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-5 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-7 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.0 用于机器学习的库。
mysql-server 5.5.46 MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.7.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.7.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权限以及协议缓冲区和 JSON 格式访问权限的轻量级服务器
presto-coordinator 0.147 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.147 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.1 Spark 命令行客户端。
spark-history-server 1.6.1 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.1 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.1 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.3 tez YARN 应用程序和库。
webserver 2.4.18 Apache HTTP 服务器。
zeppelin-server 0.5.6-incubating 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.8 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.8 ZooKeeper 命令行客户端。

发布版本 4.7.0 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.7.0 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

phoenix-hbase-metrics

更改 Phoenix 的 hadoop-metrics2-hbase.properties 文件中的值。

phoenix-hbase-site

更改 Phoenix 的 hbase-site.xml 文件中的值。

phoenix-log4j

更改 Phoenix 的 log4j.properties 文件中的值。

phoenix-metrics

更改 Phoenix 的 hadoop-metrics2-phoenix.properties 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

tez-site

更改 Tez 的 tez-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

4.6.0

发布版本 4.6.0 应用程序版本

此版本支持以下应用程序:GangliaHadoopHBaseHCatalogHiveHueMahoutOozie-SandboxPigPresto-SandboxSparkSqoop-SandboxZeppelin-SandboxZooKeeper-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.6.0 发布说明

以下发行说明包括有关 Amazon EMR 4.6.0 版本的信息。

  • 已添加 HBase 1.2.0

  • 已添加 Zookeeper-Sandbox 3.4.8

  • 已升级到 Presto-Sandbox 0.143

  • Amazon EMR 版本现在基于 Amazon Linux 2016.03.0。有关更多信息,请参阅 https://aws.amazon.com/amazon-linux-ami/2016.03-release-notes/

  • 影响吞吐量优化 HDD (st1) EBS 卷类型的问题

    Linux 内核版本 4.2 及更高版本中的问题将显著影响 EMR 的吞吐量优化 HDD (st1) EBS 卷上的性能。此版本 (emr-4.6.0) 使用内核版本 4.4.5,因此会受到影响。因此,如果您打算使用 st1 EBS 卷,我们建议您不要使用 emr-4.6.0。您可将 emr-4.5.0 或早期 Amazon EMR 版本与 st1 配合使用,而不会产生影响。此外,我们将随将来版本一起提供修复程序。

  • Python 默认值

    现在,默认情况下已安装 Python 3.4,但 Python 2.7 将保留系统默认值。您可以使用引导操作将 Python 3.4 配置为系统默认值;也可以使用配置 API 将 PYSPARK_PYTHON 导出设置为 spark-env 分类中的 /usr/bin/python3.4 以便影响 PySpark 所使用的 Python 版本。

  • Java 8

    OpenJDK 1.7 是用于所有应用程序 (Presto 除外) 的默认 JDK。但是,将同时安装 OpenJDK 1.7 和 1.8。有关如何为应用程序设置 JAVA_HOME 的信息,请参阅配置应用程序以使用 Java 8

早期版本中已解决的已知问题

  • 修复了应用程序预置有时会因生成的密码导致随机失败的问题。

  • 之前,mysqld 已安装在所有节点上。现在,它仅安装在主实例上,而且仅在所选应用程序将 mysql-server 作为组件包含时安装。当前,以下应用程序包含 mysql-server 组件:HCatalog、Hive、Hue、Presto-Sandbox 和 Sqoop-Sandbox。

  • 已将 yarn.scheduler.maximum-allocation-vcores 从默认值 32 更改为 80,这修复了 emr-4.4.0 中引入的一个问题,此问题主要在使用集群 (其核心实例类型为具有高于 32 的 YARN 虚拟核心集的几个大型实例类型之一) 中的 maximizeResourceAllocation 选项时与 Spark 时一起出现;也就是说,此问题影响了 c4.8xlarge、cc2.8xlarge、hs1.8xlarge、i2.8xlarge、m2.4xlarge、r3.8xlarge、d2.8xlarge 或 m4.10xlarge。

  • s3-dist-cp 现在对所有 Amazon S3 提名使用 EMRFS,并且不再过渡到临时 HDFS 目录。

  • 修复了与针对客户端加密分段上传的异常处理有关的问题。

  • 添加了允许用户更改 Amazon S3 存储类的选项。默认情况下,此设置为 STANDARDemrfs-site 配置分类设置为 fs.s3.storageClass,可能的值为 STANDARDSTANDARD_IAREDUCED_REDUNDANCY。有关存储类的更多信息,请参阅 Amazon Simple Storage Service 开发人员指南中的存储类

发布版本 4.6.0 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 3.0.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.0.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.1.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.3.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.6.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.2-amzn-1 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.2-amzn-1 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.2-amzn-1 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.2-amzn-1 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.2-amzn-1 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.2-amzn-1 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.2-amzn-1 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.2-amzn-1 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.2-amzn-1 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hbase-hmaster 1.2.0 适用于负责协调区域和执行管理命令的 HBase 群集的服务。
hbase-region-server 1.2.0 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.2.0 HBase 命令行客户端。
hbase-rest-server 1.2.0 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.2.0 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 1.0.0-amzn-4 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-4 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-4 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-4 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-4 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-4 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-6 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.11.1 用于机器学习的库。
mysql-server 5.5 MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
presto-coordinator 0.143 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.143 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.1 Spark 命令行客户端。
spark-history-server 1.6.1 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.1 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.1 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
webserver 2.4 Apache HTTP 服务器。
zeppelin-server 0.5.6-incubating 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.8 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.8 ZooKeeper 命令行客户端。

发布版本 4.6.0 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.6.0 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hbase-env

更改 HBase 环境中的值。

hbase-log4j

更改 HBase 的 hbase-log4j.properties 文件中的值。

hbase-metrics

更改 HBase 的 hadoop-metrics2-hbaase.properties 文件中的值。

hbase-policy

更改 HBase 的 hbase-policy.xml 文件中的值。

hbase-site

更改 HBase 的 hbase-site.xml 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

zookeeper-config

更改 ZooKeeper 的 zoo.cfg 文件中的值。

zookeeper-log4j

更改 ZooKeeper 的 log4j.properties 文件中的值。

4.5.0

发布版本 4.5.0 应用程序版本

此版本支持以下应用程序:GangliaHadoopHCatalogHiveHueMahoutOozie-SandboxPigPresto-SandboxSparkSqoop-SandboxZeppelin-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.5.0 发布说明

以下发行说明包括有关 Amazon EMR 4.5.0 版本的信息。

发行日期:2016 年 4 月 4 日

功能

  • 已升级到 Spark 1.6.1

  • 已升级到 Hadoop 2.7.2

  • 已升级到 Presto 0.140

  • 已添加对 Amazon S3 服务器端加密的 AWS KMS 支持。

早期版本中已解决的已知问题

  • 修复了重启节点后无法启动 MySQL 和 Apache 服务器的问题。

  • 修复了 IMPORT 未正确使用存储在 Amazon S3 中的非分区表的问题

  • 修复了与 Presto 有关的问题,此问题导致在写入 Hive 表时要求暂存目录为 /mnt/tmp 而不是 /tmp

发布版本 4.5.0 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 3.0.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.0.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.1.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.2.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.5.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.2-amzn-0 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.2-amzn-0 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.2-amzn-0 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.2-amzn-0 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.2-amzn-0 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.2-amzn-0 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.2-amzn-0 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.2-amzn-0 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.2-amzn-0 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hcatalog-client 1.0.0-amzn-4 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-4 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-4 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-4 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-4 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-4 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-5 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.11.1 用于机器学习的库。
mysql-server 5.5 MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
presto-coordinator 0.140 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.140 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.1 Spark 命令行客户端。
spark-history-server 1.6.1 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.1 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.1 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
webserver 2.4 Apache HTTP 服务器。
zeppelin-server 0.5.6-incubating 支持交互式数据分析的基于 Web 的笔记本电脑。

发布版本 4.5.0 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.5.0 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

4.4.0

发布版本 4.4.0 应用程序版本

此版本支持以下应用程序:GangliaHadoopHCatalogHiveHueMahoutOozie-SandboxPigPresto-SandboxSparkSqoop-SandboxZeppelin-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.4.0 发布说明

以下发行说明包括有关 Amazon EMR 4.4.0 版本的信息。

发行日期:2016 年 3 月 14 日

功能

  • 已添加 HCatalog 1.0.0

  • 已添加 Sqoop-Sandbox 1.4.6

  • 已升级到 Presto 0.136

  • 已升级到 Zeppelin 0.5.6

  • 已升级到 Mahout 0.11.1

  • 默认情况下已启用 dynamicResourceAllocation

  • 已添加针对此版本的所有配置分类的表。有关更多信息,请参阅配置应用程序中的“配置分类”表。

早期版本中已解决的已知问题

  • 修复了 maximizeResourceAllocation 设置不为 YARN ApplicationMaster 守护程序预留足够内存的问题。

  • 修复了遇到的与自定义 DNS 相关的问题。如果 resolve.conf 中的任何条目位于提供的自定义条目之前,则自定义条目不可解析。此行为受 VPC 中集群的影响,其中,默认 VPC 名称服务器已作为顶部条目插入 resolve.conf 中。

  • 修复了默认 Python 已移至版本 2.7 且未为该版本安装 boto 的问题。

  • 修复了 YARN 容器和 Spark 应用程序将生成唯一 Ganglia 轮询数据库 (rrd) 文件的问题,此问题导致第一个磁盘已挂载到填满的实例。由于进行了这项修复,YARN 容器级别指标和 Spark 应用程序级别指标都已禁用。

  • 修复了导致日志推送程序中删除所有空日志文件夹的问题。影响是 Hive CLI 无法记录日志,因为日志推送程序已删除 /var/log/hive 下的空 user 文件夹。

  • 修复了影响 Hive 导入的问题,此问题影响分区并导致在导入过程中出现错误。

  • 修复了 EMRFS 和 s3-dist-cp 未正确处理包含句点的存储桶名称的问题。

  • 更改了 EMRFS 中的行为,以便在启用版本控制的存储桶中,不会持续创建 _$folder$ 标记文件,从而有助于提高启用版本控制的存储桶的性能。

  • 更改了 EMRFS 中的行为,使它不会使用说明文件,已启用客户端加密的情况除外。如果您要在使用客户端加密时删除说明文件,可将 emrfs-site.xml 属性 fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled 设置为 true。

  • 更改了 YARN 日志聚合以在聚合目标中将日志保留两天。默认目标为您的集群 HDFS 存储。如果您要更改此持续时间,请在创建集群时使用 yarn-site 配置分类来更改 yarn.log-aggregation.retain-seconds 的值。与往常一样,您可以在创建集群时使用 log-uri 参数将应用程序日志保存到 Amazon S3。

已应用的修补程序

发布版本 4.4.0 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 3.0.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.0.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.1.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.2.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.4.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.1-amzn-1 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.1-amzn-1 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.1-amzn-1 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.1-amzn-1 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.1-amzn-1 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.1-amzn-1 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.1-amzn-1 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.1-amzn-1 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.1-amzn-1 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hcatalog-client 1.0.0-amzn-3 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 1.0.0-amzn-3 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 1.0.0-amzn-3 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 1.0.0-amzn-3 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-3 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-3 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-5 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.11.1 用于机器学习的库。
mysql-server 5.5 MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
presto-coordinator 0.136 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.136 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.0 Spark 命令行客户端。
spark-history-server 1.6.0 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.0 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.0 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
webserver 2.4 Apache HTTP 服务器。
zeppelin-server 0.5.6-incubating 支持交互式数据分析的基于 Web 的笔记本电脑。

发布版本 4.4.0 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.4.0 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hcatalog-env

更改 HCatalog 的环境中的值。

hcatalog-server-jndi

更改 HCatalog 的 jndi.properties 中的值。

hcatalog-server-proto-hive-site

更改 HCatalog 的 proto-hive-site.xml 中的值。

hcatalog-webhcat-env

更改 HCatalog WebHCat 的环境中的值。

hcatalog-webhcat-log4j

更改 HCatalog WebHCat 的 log4j.properties 中的值。

hcatalog-webhcat-site

更改 HCatalog WebHCat 的 webhcat-site.xml 文件中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

sqoop-env

更改 Sqoop 的环境中的值。

sqoop-oraoop-site

更改 Sqoop OraOop 的 oraoop-site.xml 文件中的值。

sqoop-site

更改 Sqoop 的 sqoop-site.xml 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

4.3.0

发布版本 4.3.0 应用程序版本

此版本支持以下应用程序:GangliaHadoopHiveHueMahoutOozie-SandboxPigPresto-SandboxSparkZeppelin-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.3.0 发布说明

以下发行说明包括有关 Amazon EMR 4.3.0 版本的信息。

发行日期:2016 年 1 月 19 日

功能

  • 已升级到 Hadoop 2.7.1

  • 已升级到 Spark 1.6.0

  • 已将 Ganglia 升级到 3.7.2

  • 已将 Presto 升级到 0.130

  • spark.dynamicAllocation.enabled 设置为 true 时,Amazon EMR 已对其做出一些更改;默认情况下,此项为 false。如果设置为 true,则会影响由 maximizeResourceAllocation 设置设定的默认值:

    • spark.dynamicAllocation.enabled设为 true,则 spark.executor.instances 将不被 maximizeResourceAllocation 设置。

    • 目前,spark.driver.memory 设置根据集群中的实例类型进行配置,与 spark.executors.memory 设置的方式类似。但是,由于 Spark 驱动应用程序可在主实例或核心实例之一上运行 (例如在 YARN 客户端和集群模式下分别进行),spark.driver.memory 设置根据更小实例类型的实例类型,在两个实例组之间进行。

    • 目前,spark.default.parallelism 设置为 YARN 容器可用的 CPU 内核数的两倍。在上一版本中,这是该值的一半。

    • 为 Spark YARN 过程预留的内存开销计算精确性被优化,从而使得 Spark 可用内存总量略有增加 (即spark.executor.memory)。

早期版本中已解决的已知问题

  • 默认情况下,现已启用 YARN 日志聚合。

  • 修复了在启用 YARN 日志聚合后日志未推送至集群的 Amazon S3 日志存储桶的问题。

  • YARN 容器大小现跨所有节点类型具有新的最小值 32。

  • 修复了与 Ganglia 有关的问题,此问题已导致大型集群中主节点上的磁盘 I/O 过多。

  • 修复了在关闭集群时阻止应用程序日志推送至 Amazon S3 的问题。

  • 修复了 EMRFS CLI 中导致某些命令失败的问题。

  • 修复了与 Zeppelin 有关的问题,此问题已阻止依赖项在基础 SparkContext 中加载。

  • 修复了因发出尝试添加实例的调整大小命令导致的问题。

  • 修复了 Hive 中的问题,此问题导致 CREATE TABLE AS SELECT 对 Amazon S3 进行过多的列表调用。

  • 修复了在安装 Hue、Oozie 和 Ganglia 时无法正常预置大型集群的问题。

  • 修复了 s3-dist-cp 中的问题,此问题导致即使在失败并出现错误的情况下仍将返回零退出代码。

发布版本 4.3.0 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 3.0.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.0.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.1.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.1.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.3.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.1-amzn-0 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.1-amzn-0 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.1-amzn-0 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.1-amzn-0 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.1-amzn-0 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.1-amzn-0 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.1-amzn-0 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.1-amzn-0 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.1-amzn-0 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hive-client 1.0.0-amzn-2 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-2 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-2 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-5 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.11.0 用于机器学习的库。
mysql-server 5.5 MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
presto-coordinator 0.130 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.130 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.6.0 Spark 命令行客户端。
spark-history-server 1.6.0 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.6.0 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.6.0 YARN 从属项所需的 Apache Spark 库。
webserver 2.4 Apache HTTP 服务器。
zeppelin-server 0.5.5-incubating-amzn-1 支持交互式数据分析的基于 Web 的笔记本电脑。

发布版本 4.3.0 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.3.0 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

4.2.0

发布版本 4.2.0 应用程序版本

此版本支持以下应用程序:GangliaHadoopHiveHueMahoutOozie-SandboxPigPresto-SandboxSparkZeppelin-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.2.0 发布说明

以下发行说明包括有关 Amazon EMR 4.2.0 版本的信息。

发行日期:2015 年 11 月 18 日

功能

  • 已添加 Ganglia 支持

  • 已升级到 Spark 1.5.2

  • 已升级到 Presto 0.125

  • 已将 Oozie 升级到 4.2.0

  • 已将 Zeppelin 升级到 0.5.5

  • 已将 AWS SDK for Java 升级到 1.10.27

早期版本中已解决的已知问题

  • 修复了与 EMRFS CLI 有关的问题,此问题发导致不使用默认元数据表名称。

  • 修复了在 Amazon S3 中使用 ORC 支持的表时遇到的问题。

  • 修复了遇到的 Python 版本在 Spark 配置中不匹配的问题。

  • 修复了 YARN 节点状态因 VPC 中集群的 DNS 问题导致无法报告的问题。

  • 修复了 YARN 已停用节点从而导致应用程序挂起且无法计划新应用程序时遇到的问题。

  • 修复了集群终止且状态为 TIMED_OUT_STARTING 时遇到的问题。

  • 修复了在其他内部版本中包含 EMRFS Scala 依赖项时遇到的问题。Scala 依赖项已被删除。

发布版本 4.2.0 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 3.0.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.0.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.1.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.0.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.2.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
ganglia-monitor 3.6.0 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.6.0 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.5.10 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.6.0-amzn-2 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.6.0-amzn-2 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.6.0-amzn-2 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.6.0-amzn-2 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.6.0-amzn-2 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.6.0-amzn-2 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.6.0-amzn-2 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.6.0-amzn-2 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.6.0-amzn-2 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hive-client 1.0.0-amzn-1 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-1 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-1 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-5 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.11.0 用于机器学习的库。
mysql-server 5.5 MySQL 数据库服务器。
oozie-client 4.2.0 Oozie 命令行客户端。
oozie-server 4.2.0 用于接受 Oozie 工作流请求的服务。
presto-coordinator 0.125 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.125 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.5.2 Spark 命令行客户端。
spark-history-server 1.5.2 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.5.2 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.5.2 YARN 从属项所需的 Apache Spark 库。
webserver 2.4 Apache HTTP 服务器。
zeppelin-server 0.5.5-incubating-amzn-0 支持交互式数据分析的基于 Web 的笔记本电脑。

发布版本 4.2.0 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.2.0 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

presto-connector-hive

更改 Presto 的 hive.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

spark-metrics

更改 Spark 的 metrics.properties 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

4.1.0

发布版本 4.1.0 应用程序版本

此版本支持以下应用程序:HadoopHiveHueMahoutOozie-SandboxPigPresto-SandboxSparkZeppelin-Sandbox

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.1.0 发布说明

不可用。

发布版本 4.1.0 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 3.0.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.0.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.1.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.0.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.1.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
hadoop-client 2.6.0-amzn-1 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.6.0-amzn-1 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.6.0-amzn-1 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.6.0-amzn-1 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.6.0-amzn-1 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.6.0-amzn-1 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.6.0-amzn-1 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.6.0-amzn-1 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.6.0-amzn-1 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hive-client 1.0.0-amzn-1 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-1 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-1 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.7.1-amzn-4 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.11.0 用于机器学习的库。
mysql-server 5.5 MySQL 数据库服务器。
oozie-client 4.0.1 Oozie 命令行客户端。
oozie-server 4.0.1 用于接受 Oozie 工作流请求的服务。
presto-coordinator 0.119 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.119 用于执行查询的各个部分的服务。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.5.0 Spark 命令行客户端。
spark-history-server 1.5.0 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.5.0 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.5.0 YARN 从属项所需的 Apache Spark 库。
zeppelin-server 0.6.0-incubating-SNAPSHOT 支持交互式数据分析的基于 Web 的笔记本电脑。

发布版本 4.1.0 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.1.0 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hdfs-encryption-zones

配置 HDFS 加密区域。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

hue-ini

更改 Hue 的 ini 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

hadoop-kms-acls

更改 Hadoop 的 kms-acls.xml 文件中的值。

hadoop-kms-env

更改 Hadoop KMS 环境中的值。

hadoop-kms-log4j

更改 Hadoop 的 kms-log4j.properties 文件中的值。

hadoop-kms-site

更改 Hadoop 的 kms-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

oozie-env

更改 Oozie 的环境中的值。

oozie-log4j

更改 Oozie 的 oozie-log4j.properties 文件中的值。

oozie-site

更改 Oozie 的 oozie-site.xml 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

presto-log

更改 Presto 的 log.properties 文件中的值。

presto-config

更改 Presto 的 config.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。

zeppelin-env

更改 Zeppelin 环境中的值。

4.0.0

发布版本 4.0.0 应用程序版本

此版本支持下列应用程序:HadoopHiveMahoutPigSpark

下图描述了此版本的 Amazon EMR 中提供的应用程序版本以及前四个 Amazon EMR 版本中的应用程序版本。

有关每个版本的 Amazon EMR 的应用程序版本的全面历史记录,请参见下面的示意图:

发布版本 4.0.0 发布说明

不可用。

发布版本 4.0.0 组件版本

下面列出了Amazon EMR 随此版本一起安装的组件。一些组件作为大数据应用程序包的一部分安装。其他组件是 Amazon EMR 独有的,并且已为系统流程和功能安装这些组件。它们通常以 emraws 开头。最新的 Amazon EMR 版本中的大数据应用程序包通常是在社区中找到的最新版本。我们尽快在 Amazon EMR 中提供社区版本。

一些组件需要来自 Amazon EMR 的社区版本的更改。这些组件具有以下形式的 CommunityVersion-amzn-EmrVersion 的版本标签。例如,如果已对名为 myapp-component 的版本 2.2 的大数据社区组件进行三次修改以包含在不同的 Amazon EMR 发行版中,则其发行版将列出为 2.2-amzn-3

组件 版本 说明
emr-ddb 3.0.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.0.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.0.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.0.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.0.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
hadoop-client 2.6.0-amzn-0 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.6.0-amzn-0 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-namenode 2.6.0-amzn-0 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.6.0-amzn-0 用于 HDFS 操作的 HTTP 终端节点。
hadoop-mapred 2.6.0-amzn-0 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.6.0-amzn-0 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.6.0-amzn-0 用于分配和管理群集资源与分布式应用程序的 YARN 服务。
hive-client 1.0.0-amzn-0 Hive 命令行客户端。
hive-metastore-server 1.0.0-amzn-0 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server 1.0.0-amzn-0 用于将 Hive 查询作为 Web 请求接受的服务。
mahout-client 0.10.0 用于机器学习的库。
mysql-server 5.5 MySQL 数据库服务器。
pig-client 0.14.0-amzn-0 Pig 命令行客户端。
spark-client 1.4.1 Spark 命令行客户端。
spark-history-server 1.4.1 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 1.4.1 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 1.4.1 YARN 从属项所需的 Apache Spark 库。

发布版本 4.0.0 配置分类

配置分类使您能够自定义应用程序。这些分类通常对应于应用程序的配置 XML 文件,例如 hive-site.xml。有关更多信息,请参阅 配置应用程序

emr-4.0.0 分类

分类 说明

capacity-scheduler

更改 Hadoop 的 capacity-scheduler.xml 文件中的值。

core-site

更改 Hadoop 的 core-site.xml 文件中的值。

emrfs-site

更改 EMRFS 设置。

hadoop-env

更改适用于所有 Hadoop 组件的 Hadoop 环境中的值。

hadoop-log4j

更改 Hadoop 的 log4j.properties 文件中的值。

hdfs-site

更改 HDFS 的 hdfs-site.xml 中的值。

hive-env

更改 Hive 环境中的值。

hive-exec-log4j

更改 Hive 的 hive-exec-log4j.properties 文件中的值。

hive-log4j

更改 Hive 的 hive-log4j.properties 文件中的值。

hive-site

更改 Hive 的 hive-site.xml 文件中的值

httpfs-env

更改 HTTPFS 环境中的值。

httpfs-site

更改 Hadoop 的 httpfs-site.xml 文件中的值。

mapred-env

更改 MapReduce 应用程序的环境中的值。

mapred-site

更改 MapReduce 应用程序的 mapred-site.xml 文件中的值。

pig-properties

更改 Pig 的 pig.properties 文件中的值。

pig-log4j

更改 Pig 的 log4j.properties 文件中的值。

spark

适用于 Apache Spark 的 Amazon EMR 辅助设置。

spark-defaults

更改 Spark 的 spark-defaults.conf 文件中的值。

spark-env

更改 Spark 环境中的值。

spark-log4j

更改 Spark 的 log4j.properties 文件中的值。

yarn-env

更改 YARN 环境中的值。

yarn-site

更改 YARN 的 yarn-site.xml 文件中的值。