Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

配置集群软件

选择软件版本后,Amazon EMR 使用 Amazon 系统映像 (AMI) 与 Amazon Linux 在您启动集群时安装选中的软件,如 Hadoop、Spark、Hive 等。Amazon EMR 定期提供新版本,添加新功能、新应用程序和常规更新。我们建议在可能的情况下尽量使用最新的版本启动集群。在从控制台启动集群时,默认选项为使用最新版本。

有关 Amazon EMR 版本和每个版本可用的软件版本的更多信息,请访问 Amazon EMR 版本指南。有关如何编辑安装在集群上的应用程序和软件的默认配置的更多信息,请转到 Amazon EMR 版本指南 中的配置应用程序。Amazon EMR 版本中包含的开源 Hadoop 和 Spark 生态系统组件的某些版本拥有补丁和改进 (详见 Amazon EMR 版本指南)。

除了可在集群上安装的标准软件和应用程序外,您还可以使用引导操作安装自定义软件。引导操作是启动集群时在实例上运行的脚本,以及在创建集群时添加到集群中的新节点上运行的脚本。此外,要在每个节点上调用 AWS CLI 命令以将对象从 Amazon S3 复制到集群中的每个节点时,引导操作也非常有用。

注意

在 Amazon EMR 4.x 及之后的版本中,引导操作的用法发生了变化。有关其与 Amazon EMR AMI 版本 2.x 和 3.x 不同之处的更多信息,请参阅 Amazon EMR 版本指南 中的 4.x 的改变之处