步骤 2:检查环境 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

步骤 2:检查环境

Amazon EMR 作为 Web 服务的生态系统的一部分和开源软件运行。影响那些依赖项的事情会影响 Amazon EMR 的性能。

检查服务中断

Amazon EMR 在内部使用多种 Amazon Web Services。它在 Amazon EC2 上运行虚拟服务器,在 Amazon S3 上存储数据和脚本,并向 CloudWatch 报告指标。中断这些服务的事件很少见。但一旦发生,即可能会导致 Amazon EMR 出现问题。

进一步操作之前,请检查 Service Health Dashboard。检查您启动集群的区域,以查看这些服务中是否存在中断事件。

检查使用限制

如果您正在启动一个大型集群,同时启动了大量集群,或者您是与其他用户共享 Amazon Web Services 账户的用户,则集群可能会因为您超出 Amazon 服务限制而失败。

Amazon EC2 将在单个Amazon区域上运行的虚拟服务器实例数量限制为 20 个按需或预留实例。如果您启动的集群包含超过 20 个节点,或者启动的集群会导致您 Amazon Web Services 账户上的活动 EC2 实例总数超过 20 个,则该集群将无法启动所需的全部 EC2 实例并且可能会失败。出现这种情况时,Amazon EMR 会返回 EC2 QUOTA EXCEEDED 错误。您可以通过提交增加 Amazon EC2 实例限制申请,请求Amazon增加您可以在您的账户上运行的 EC2 实例的数量。

可能导致您超出使用限制的另一件事是集群终止与释放其所有资源之间的延迟。根据配置差异,以前的集群可能需要 5-20 分钟的时间才能完全终止并释放分配的资源。如果您在尝试启动集群时收到 EC2 QUOTA EXCEEDED 错误,原因可能是最近终止的集群中的资源尚未释放。在这种情况下,您可以请求增加您的 Amazon EC2 配额,也可以等待 20 分钟并重新启动集群。

Amazon S3 将在账户上创建的存储桶数量限制为 100。如果您的集群创建的新存储桶超过此限制,则存储桶创建将失败,并可能导致集群失败。

检查发布版

将用于启动集群的发行版标注与最新的 Amazon EMR 版本进行比较。Amazon EMR 的每个版本都包含改进,例如新的应用程序、功能、补丁和错误修复。影响集群的问题可能已经在最新的发布版中得到修复。如果可能,请使用最新版本的重新运行集群。

检查 Amazon VPC 子网配置

如果您的集群是在 Amazon VPC 子网中启动的,则需要按照配置联网中所述配置子网。此外,请检查您启动集群的子网是否有足够的空闲弹性 IP 地址,以便为集群中的每个节点分配一个。