配置集群软件 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

配置集群软件

选择软件版本后,Amazon EMR 使用 Amazon Machine Image(AMI)与 Amazon Linux 在您启动集群时安装选中的软件,如 Hadoop、Spark、Hive 等。Amazon EMR 会定期提供新版本,来添加新功能、新应用程序并提供常规更新。我们建议在可能的情况下尽量使用最新的版本启动集群。在从控制台启动集群时,默认选项为使用最新版本。

有关 Amazon EMR 版本和每个版本可用的软件版本的更多信息,请访问 Amazon EMR 版本指南。有关如何编辑安装在集群上的应用程序和软件的默认配置的更多信息,请转到《Amazon EMR 版本指南》中的配置应用程序。Amazon EMR 版本中包含的开源 Hadoop 和 Spark 生态系统组件的某些版本拥有补丁和改进(详见 Amazon EMR 版本指南中的文档)。

除了可在集群上安装的标准软件和应用程序外,您还可以使用引导操作安装自定义软件。引导操作是启动集群时在实例上运行的脚本,以及在创建集群时添加到集群中的新节点上运行的脚本。此外,要在每个节点上调用 Amazon CLI 命令以将对象从 Amazon S3 复制到集群中的每个节点时,引导操作也非常有用。

注意

在 Amazon EMR 版本 4.x 及更高版本中,引导操作的用法发生了变化。有关 Amazon EMR AMI 版本 2.x 和 3.x 区别的更多信息,请转到《Amazon EMR 版本指南》中的 4.x 区别概述