Amazon EMR
Amazon EMR 版本指南
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。请点击 Amazon AWS 入门,可查看中国地区的具体差异

关于 Amazon EMR 版本

本文档适用于 Amazon EMR 的 版本 4.x 和 5.x。对于有关 Amazon EMR AMI 版本 2.x 和 3.x 的信息,请参阅 Amazon EMR 开发人员指南 (PDF)

本文档提供有关 Amazon EMR 4.x 和 5.x 软件版本的信息。版本是可以在 Amazon EMR 集群上安装和配置的一组软件应用程序和组件。Amazon EMR 版本是使用基于 Apache BigTop (与 Hadoop 生态系统关联的开源项目) 的系统打包的。除了 Hadoop 和 Spark 生态系统项目之外,每个 Amazon EMR 版本还提供支持集群和资源管理的组件、与其他 AWS 服务的互操作性以及针对已安装软件的其他配置优化。

应用程序

每个 Amazon EMR 版本均包含可用于您的集群上的安装的多个分布式应用程序。Amazon EMR 不仅将每个应用程序定义为包含开源项目的组件集,而且将它定义为应用程序运行所需的一组关联组件。当您使用控制台、API 或 CLI 选择安装应用程序时,Amazon EMR 将跨集群中的节点安装并配置这一系列组件。此版本支持以下应用程序:FlinkGangliaHadoopHBaseHCatalogHiveHueMahoutOoziePhoenixPigPrestoSparkSqoopTezZeppelinZooKeeper

组成部分

Amazon EMR 版本包括各种组件,可通过指定使用这些组件的应用程序来安装它们。这些组件的版本通常是在社区中找到的版本。Amazon EMR 努力及时提供社区版本。但是,可能需要更改特定组件。如果修改了这些组件,则它们将具有一个发行版,如下所示:

communityVersion-amzn-emrReleaseVersion

例如,假设 Amazon EMR 尚未修改组件 ExampleComponent1,则版本为 1.0 (社区版本)。但是,修改了另一个组件 ExampleComponent2,并且其 Amazon EMR 发行版为 1.0.0-amzn-0

还有 Amazon EMR 专门提供的组件。例如,DynamoDB 连接器组件 emr-ddb 由 Amazon EMR 提供,用于与 Amazon EMR 集群上运行的应用程序配合使用。Amazon 组件只有一个版本号。例如,emr-ddb 版本为 2.1.0。有关使用 Hive 查询 DynamoDB 的更多信息和示例,请参阅 Amazon EMR Hive 查询可适应部分 DynamoDB 架构

Amazon EMR 附带下列组件:

组建 版本 说明
emr-ddb 4.2.0 适用于 Hadoop 生态系统应用程序的 Amazon DynamoDB 连接器。
emr-goodies 2.3.0 适用于 Hadoop 生态系统的方便易用的库。
emr-kinesis 3.2.0 适用于 Hadoop 生态系统应用程序的 Amazon Kinesis 连接器。
emr-s3-dist-cp 2.4.0 针对 Amazon S3 优化的分布式复制应用程序。
emrfs 2.15.0 适用于 Hadoop 生态系统应用程序的 Amazon S3 连接器。
flink-client 1.2.0 Apache Flink 命令行客户端脚本和应用程序。
ganglia-monitor 3.7.2 适用于 Hadoop 生态系统应用程序的嵌入式 Ganglia 代理以及 Ganglia 监控代理。
ganglia-metadata-collector 3.7.2 用于从 Ganglia 监控代理中聚合指标的 Ganglia 元数据收集器。
ganglia-web 3.7.1 用于查看由 Ganglia 元数据收集器收集的指标的 Web 应用程序。
hadoop-client 2.7.3-amzn-1 Hadoop 命令行客户端,如“hdfs”、“hadoop”或“yarn”。
hadoop-hdfs-datanode 2.7.3-amzn-1 用于存储数据块的 HDFS 节点级服务。
hadoop-hdfs-library 2.7.3-amzn-1 HDFS 命令行客户端和库
hadoop-hdfs-namenode 2.7.3-amzn-1 用于跟踪文件名和数据块位置的 HDFS 服务。
hadoop-httpfs-server 2.7.3-amzn-1 用于 HDFS 操作的 HTTP 终端节点。
hadoop-kms-server 2.7.3-amzn-1 基于 Hadoop 的 KeyProvider API 的加密密钥管理服务器。
hadoop-mapred 2.7.3-amzn-1 用于运行 MapReduce 应用程序的 MapReduce 执行引擎库。
hadoop-yarn-nodemanager 2.7.3-amzn-1 用于管理单个节点上的容器的 YARN 服务。
hadoop-yarn-resourcemanager 2.7.3-amzn-1 用于分配和管理集群资源与分布式应用程序的 YARN 服务。
hadoop-yarn-timeline-server 2.7.3-amzn-1 用于检索 YARN 应用程序的当前信息和历史信息的服务。
hbase-hmaster 1.3.0 适用于负责协调区域和执行管理命令的 HBase 集群的服务。
hbase-region-server 1.3.0 用于服务于一个或多个 HBase 区域的服务。
hbase-client 1.3.0 HBase 命令行客户端。
hbase-rest-server 1.3.0 用于向 HBase 提供 RESTful HTTP 终端节点的服务。
hbase-thrift-server 1.3.0 用于向 HBase 提供 Thrift 终端节点的服务。
hcatalog-client 2.1.1-amzn-0 用于操作 hcatalog-server 的“hcat”命令行客户端。
hcatalog-server 2.1.1-amzn-0 用于为分布式应用程序提供 HCatalog、表和存储管理层的服务。
hcatalog-webhcat-server 2.1.1-amzn-0 用于向 HCatalog 提供 REST 接口的 HTTP 终端节点。
hive-client 2.1.1-amzn-0 Hive 命令行客户端。
hive-hbase 2.1.1-amzn-0 Hive-hbase 客户端。
hive-metastore-server 2.1.1-amzn-0 用于访问 Hive 元存储 (一个用于存储 Hadoop 操作中的 SQL 的元数据的语义存储库) 的服务。
hive-server2 2.1.1-amzn-0 用于将 Hive 查询作为 Web 请求接受的服务。
hue-server 3.11.0 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序
mahout-client 0.12.2 用于机器学习的库。
mysql-server 5.5.54+ MySQL 数据库服务器。
oozie-client 4.3.0 Oozie 命令行客户端。
oozie-server 4.3.0 用于接受 Oozie 工作流请求的服务。
phoenix-library 4.9.0-HBase-1.2 服务器和客户端的 phoenix 库
phoenix-query-server 4.9.0-HBase-1.2 向 Avatica API 提供 JDBC 访问权限以及协议缓冲区和 JSON 格式访问权限的轻量级服务器
presto-coordinator 0.166 用于在 presto-worker 之中接受查询并管理查询的服务。
presto-worker 0.166 用于执行查询的各个部分的服务。
pig-client 0.16.0-amzn-0 Pig 命令行客户端。
spark-client 2.1.0 Spark 命令行客户端。
spark-history-server 2.1.0 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
spark-on-yarn 2.1.0 适用于 YARN 的内存中执行引擎。
spark-yarn-slave 2.1.0 YARN 从属项所需的 Apache Spark 库。
sqoop-client 1.4.6 Apache Sqoop 命令行客户端。
tez-on-yarn 0.8.4 tez YARN 应用程序和库。
webserver 2.4.25+ Apache HTTP 服务器。
zeppelin-server 0.7.0 支持交互式数据分析的基于 Web 的笔记本电脑。
zookeeper-server 3.4.9 用于维护配置信息、命名、提供分布式同步以及提供组服务的集中式服务。
zookeeper-client 3.4.9 ZooKeeper 命令行客户端。

了解更多

如果您正在查找其他信息,请参阅以下指南和站点: