Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

列入黑名单的节点

NodeManager 守护程序负责在核心节点和任务节点上启动和管理容器。该容器由主节点上运行的 ResourceManager 守护程序分配给 NodeManager 守护程序。ResourceManager 通过检测信号监控 NodeManager 节点。

在下列情况下,ResourceManager 守护程序会将 NodeManager 节点列入黑名单,将此节点从可用于处理任务的节点库中删除:

  • 如果 NodeManager 在过去的 10 分钟(60000 毫秒)内尚未向 ResourceManager 守护程序发送检测信号。可以使用 yarn.nm.liveness-monitor.expiry-interval-ms 配置设置来配置此时间段。有关更改 Yarn 配置设置的更多信息,请参阅 Amazon EMR 版本指南中的配置应用程序

  • NodeManager 检查由 yarn.nodemanager.local-dirsyarn.nodemanager.log-dirs 确定的磁盘的运行状况。该检查包括权限和可用磁盘空间 (< 90%)。如果磁盘未通过检查,则 NodeManager 将停止使用该特定磁盘,但仍将节点状态报告为正常。如果大量磁盘未通过检查,则向 ResourceManager 报告的节点状态为不正常,并且不会向节点分配新容器。

主应用程序也可将 NodeManager 节点列入黑名单(如果该节点包含 3 个以上的失败任务)。您可以使用 mapreduce.job.maxtaskfailures.per.tracker 配置参数将此值更改为更高的值。您可以更改的其他配置设置可控制将任务标记为失败之前的尝试次数:用于映射任务的 mapreduce.map.max.attempts 和用于缩减任务的 mapreduce.reduce.maxattempts。有关更改配置设置的更多信息,请参阅 Amazon EMR 版本指南 中的配置应用程序