在启动 Amazon EMR 集群时配置应用程序 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在启动 Amazon EMR 集群时配置应用程序

当您选择软件版本时,亚马逊会EMR使用带亚马逊 Linux 的亚马逊系统映像 (AMI) 来安装您在启动集群时选择的软件,例如 Hadoop、Spark 和 Hive。Amazon 定期EMR提供新版本,添加新功能、新应用程序和常规更新。我们建议在可能的情况下尽量使用最新的版本启动集群。在从控制台启动集群时,默认选项为使用最新版本。

有关亚马逊EMR版本和每个版本提供的软件版本的更多信息,请访问亚马逊EMR发行指南。有关如何编辑集群上安装的应用程序和软件的默认配置的更多信息,请转到 Amazon EMR 发行指南中的配置应用程序。亚马逊版本中包含的开源 Hadoop 和 Spark 生态系统组件的某些EMR版本具有补丁和改进,这些补丁和改进已记录在《亚马逊EMR发行指南》中。

除了可在集群上安装的标准软件和应用程序外,您还可以使用引导操作安装自定义软件。引导操作是启动集群时在实例上运行的脚本,以及在创建集群时添加到集群中的新节点上运行的脚本。引导操作还可用于在每个节点上调用 Amazon CLI 命令,将对象从 Amazon S3 复制到集群中的每个节点。

注意

在 Amazon 4.x 及更高EMR版本中,引导操作的使用方式有所不同。有关这些与亚马逊 2.x 和 3.x EMR AMI 版本的差异的更多信息,请参阅《亚马逊发行指南》中的 4.x 版本中介绍的差异。EMR