注意事项和最佳实践 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

注意事项和最佳实践

具有多个主节点的 EMR 集群的限制

  • 如果任何两个主节点同时故障,则 Amazon EMR 无法恢复集群。

  • 具有多个主节点的 Amazon EMR 集群不能容忍可用区故障。在可用区中断的情况下,您将无法访问 Amazon EMR 集群。

  • 除了 具有多个主节点 (master node) 的 Amazon EMR 集群中支持的应用程序 中指定的开源应用程序之外,Amazon EMR 不保证其他开源应用程序的高可用性功能。

配置子网的注意事项:

  • 具有多个主节点的 EMR 集群仅可驻留在一个可用区或子网中。如果在发生故障转移时子网被充分利用或超额订阅,则 Amazon EMR 无法替换发生故障的主节点 (master node)。为避免出现这种情况,建议您将整个子网专用于 EMR 集群。此外,请确保子网中有足够的私有 IP 地址。

配置核心节点的注意事项:

  • 为确保核心节点实例组也具有高可用性,建议您至少启动四个核心节点。如果您决定启动具有三个或更少核心节点的较小集群,请通过将 dfs.replication parameter 设置为至少 2 来配置具有足够 DFS 复制的 HDFS。有关更多信息,请参阅 HDFS 配置

在指标上设置警报的注意事项:

  • Amazon EMR 当前不提供有关 HDFS 或 YARN 的应用程序特定指标。建议您设置警报以监控主节点实例计数。您可以使用以下 CloudWatch 指标来配置警报:MultiMasterInstanceGroupNodesRunningMultiMasterInstanceGroupNodesRunningPercentageMultiMasterInstanceGroupNodesRequested。如果主节点发生故障和替换,您将收到通知。例如:

    • 如果 MultiMasterInstanceGroupNodesRunningPercentage 低于 1.0 和大于 0.5,集群可能会丢失主节点。在这种情况下,Amazon EMR 将尝试替换主节点 (master node)。

    • 如果 MultiMasterInstanceGroupNodesRunningPercentage 低于 0.5,两个主节点可能会发生故障。在这种情况下,仲裁丢失,集群无法恢复。需要手动干预才能从此集群中迁移数据。

    有关更多信息,请参阅在指标上设置警报