Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

注意事项和最佳实践

具有多个主节点的 EMR 集群 的限制:

  • 如果任何两个主节点同时故障,则 EMR 无法恢复集群。

  • 具有多个主节点的 EMR 集群不能容忍可用区故障。在可用区中断的情况下,您将无法访问 EMR 集群。

  • 除了 具有多个主节点的 EMR 集群中支持的应用程序 中指定的开源应用程序之外,EMR 不保证其他开源应用程序的高可用性功能。

配置子网的注意事项:

  • 一个 具有多个主节点的 EMR 集群 只能驻留在一个可用区或子网中。如果在发生故障转移时子网被充分利用或超额订阅,则 EMR 无法替换发生故障的主节点。为避免出现这种情况,建议您将整个子网专用于 Amazon EMR 集群。此外,请确保子网中有足够的私有 IP 地址。

配置核心节点的注意事项:

  • 为确保核心节点实例组也具有高可用性,建议您至少启动四个核心节点。如果您决定启动具有三个或更少核心节点的较小集群,请通过将 dfs.replication parameter 设置为至少 2 来配置具有足够 DFS 复制的 HDFS。有关更多信息,请参阅 HDFS 配置

在指标上设置警报的注意事项:

  • EMR 当前不提供有关 HDFS 或 YARN 的应用程序特定指标。建议您设置警报以监控主节点实例计数。您可以使用以下 CloudWatch 指标来配置警报:MultiMasterInstanceGroupNodesRunningMultiMasterInstanceGroupNodesRunningPercentageMultiMasterInstanceGroupNodesRequested。如果主节点发生故障和替换,您将收到通知。例如,

    • 如果 MultiMasterInstanceGroupNodesRunningPercentage 低于 1.0 和大于 0.5,集群可能会丢失主节点。在这种情况下,EMR 将尝试替换主节点。

    • 如果 MultiMasterInstanceGroupNodesRunningPercentage 低于 0.5,两个主节点可能会发生故障。在这种情况下,仲裁丢失,集群无法恢复。需要手动干预才能从此集群中迁移数据。

    有关更多信息,请参阅在指标上设置警报