步骤 2:检查环境 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

步骤 2:检查环境

检查服务中断

Amazon EMR 在内部使用多种 Amazon Web Services。它在 Amazon EC2 上运行虚拟服务器,在 Amazon S3 上存储数据和脚本,并向报告指标 CloudWatch。中断这些服务的事件很少见。但一旦发生,即可能会导致 Amazon EMR 出现问题。

进一步操作之前,请检查 Service Health Dashboard。检查您启动集群的区域,以查看这些服务中是否存在中断事件。

检查使用限制

如果您正在启动大型集群,同时启动了多个集群,或者您是 Amazon Web Services 账户 与其他用户共享的用户,则集群可能因为您超过了 Amazon 服务限制而失败。

Amazon EC2 将单个 Amazon 区域上运行的虚拟服务器实例的数量限制为 20 个按需实例或预留实例。如果您启动一个拥有 20 个以上节点的集群,或者启动的集群导致您的 Amazon Web Services 账户 活动的 EC2 实例总数超过 20,则该集群将无法启动其所需的所有 EC2 实例,并且可能会失败。出现这种情况时,Amazon EMR 会返回 EC2 QUOTA EXCEEDED 错误。您可以通过提交 Amazon 提高 Amazon EC2 实例限制申请来请求增加可在您的账户上运行的 EC2 实例数量。

可能导致您超出使用限制的另一件事是集群终止与释放其所有资源之间的延迟。根据配置差异,以前的集群可能需要 5-20 分钟的时间才能完全终止并释放分配的资源。如果您在尝试启动集群时收到 EC2 QUOTA EXCEEDED 错误,原因可能是最近终止的集群中的资源尚未释放。在这种情况下,您可以请求增加您的 Amazon EC2 配额,也可以等待 20 分钟并重新启动集群。

Amazon S3 将在账户上创建的存储桶数量限制为 100。如果您的集群创建的新存储桶超过此限制,则存储桶创建将失败,并可能导致集群失败。

检查 Amazon VPC 子网配置

如果您的集群是在 Amazon VPC 子网中启动的,则需要按照配置联网中所述配置子网。此外,请检查您启动集群的子网是否有足够的空闲弹性 IP 地址,以便为集群中的每个节点分配一个。

重启集群

处理减速可能是由瞬变条件造成的。请考虑终止并重启该集群,看看性能是否有所改进。