Apache Hadoop - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Apache Hadoop

Apache Hadoop 是一种开源 Java 软件框架,支持跨越实例集群处理大量数据。它可以在单个实例或数千个实例上运行。Hadoop 使用各种处理模型(例如 MapReduce 和 Tez)将处理分布到多个实例,还使用名为 HDFS 的分布式文件系统跨多个实例存储数据。Hadoop 监控集群中实例的运行状况,并可从一个或多个节点的故障中恢复。通过这种方式,Hadoop 可增加处理和存储容量以及高可用性。有关更多信息,请参阅 Hadoop 文档

下表列出了 Amazon EMR 7.x 系列的最新发行版附带的 Hadoop 的版本,以及 Amazon EMR 随 Hadoop 一起安装的组件。

有关此版本中与 Hadoop 一起安装的组件的版本,请参阅 7.1.0 版本的组件版本。

emr-7.1.0 的 Hadoop 版本信息
Amazon EMR 发行版标签 Hadoop 版本 随 Hadoop 安装的组件

emr-7.1.0

Hadoop 3.3.6

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server

下表列出了 Amazon EMR 6.x 系列的最新发行版附带的 Hadoop 的版本,以及 Amazon EMR 随 Hadoop 一起安装的组件。

有关此发行版中随 Hadoop 安装的组件版本,请参阅发行版 6.15.0 组件版本

emr-6.15.0 的 Hadoop 版本信息
Amazon EMR 发行版标签 Hadoop 版本 随 Hadoop 安装的组件

emr-6.15.0

Hadoop 3.3.6

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server

下表列出了 Amazon EMR 5.x 系列的最新发行版附带的 Hadoop 的版本,以及 Amazon EMR 随 Hadoop 一起安装的组件。

有关此版本中与 Hadoop 一起安装的组件的版本,请参阅发行版 5.36.2 组件版本。

emr-5.36.2 的 Hadoop 版本信息
Amazon EMR 发行版标签 Hadoop 版本 随 Hadoop 安装的组件

emr-5.36.2

Hadoop 2.10.1

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server

您可以使用 Amazon EMR 构件存储库构建针对特定 Amazon EMR 发行版(从 Amazon EMR 发行版 5.18.0 开始)附带的准确版本的库和依赖项的任务代码。有关更多信息,请参阅 使用 Amazon EMR 项目存储库检查依赖项