Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

步骤 2:检查环境

Amazon EMR 作为 Web 服务的生态系统的一部分和开源软件运行。影响那些依赖项的事情会影响 Amazon EMR 的性能。

检查服务中断

Amazon EMR 在内部使用多种 Amazon Web Services。它在 Amazon EC2 上运行虚拟服务器,在 Amazon S3 上存储数据和脚本,在 Amazon SimpleDB 中为日志文件创建索引,并向 CloudWatch 报告指标。导致这些服务中断的事件很少见,然而一旦发生,就会在 Amazon EMR 中引发问题。

在进行下一步之前,请查看服务运行状况控制面板。请检查启动了集群的区域,以了解这些服务中是否存在中断事件。

检查使用限制

如果您启动大型集群、同时启动了许多集群或者您是与其他用户共享 AWS 账户的 IAM 用户,则集群可能会失败,因为您超出了 AWS 服务限制。

Amazon EC2 将运行在单个 AWS 区域上的虚拟服务器实例的数量限制为 20 个按需实例或预留实例。如果启动含有 20 个以上节点的集群,或启动会造成在您的 AWS 账户上处于活动状态的 EC2 实例总数超过 20 的集群,则集群将无法启动它所需的全部 EC2 实例,且可能会失败。发生此情况时,Amazon EMR 返回 EC2 QUOTA EXCEEDED 错误。您可以提交调高 Amazon EC2 实例限制请求申请,以便请求 AWS 增加您可以在账户上运行的 EC2 实例的数量。

另外一个可能使您超过使用限制的情况是,集群终止的时刻与它释放其所有资源的时刻之间有一段延迟。根据具体配置,集群可能需要 5-20 分钟才能完全终止并释放分配的资源。如果在您尝试启动集群时收到 EC2 QUOTA EXCEEDED 错误,原因可能是最近终止的集群中的资源尚未释放。在这种情况下,您可以请求增加 Amazon EC2 配额,也可以等待 20 分钟,然后重新启动集群。

Amazon S3 将在账户上创建的存储桶的数量限制为 100。如果您的集群创建超过此限制的新存储桶,则存储桶的创建会失败,并可能造成集群失败。

检查发布版

比较用于启动群集的版本标签和最新的 Amazon EMR 版本。Amazon EMR 的每个版本都包含改进,例如新的应用程序、功能、补丁和错误修复。影响集群的问题可能已经在最新的发布版中得到修复。如果可能,请使用最新版本的 重新运行集群。

检查 Amazon VPC 子网配置

如果集群是在 Amazon VPC 子网中启动的,则需要按配置联网中所述配置子网。此外,请检查用于启动集群的子网是否拥有足够的空闲弹性 IP 地址,以便为集群中的每个节点分配一个地址。