HDFS 复制因子错误 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

HDFS 复制因子错误

当您从核心实例组或实例队列中移除核心节点时,Amazon EMR 可能会遇到 HDFS 复制错误。当您移除核心节点并且核心节点数量低于为 Hadoop 分布式文件系统 (HDFS) 配置的 dfs.replication 因子时,就会发生此错误。因此,Amazon EMR 无法安全地执行该操作。要确定dfs.replication配置的默认值,请使用 HDFS 配置

可能的原因

有关 HDFS 重复因子错误的可能原因,请参阅以下内容:

  • 如果您手动调整核心实例组或实例队列的大小低于配置dfs.replication系数。

  • 您的托管扩展或自动扩展策略可能允许进行扩展,以将核心节点的数量减少到阈值以下。dfs.replication

  • 如果 Amazon EMR 尝试替换运行状况不佳的核心节点,而集群的核心节点数量由定义,也会发生此错误。dfs.replication

解决方案和最佳实践

有关解决方案和最佳实践,请参阅以下内容:

  • 手动调整 Amazon EMR 集群的大小时,请不要向下缩小规模,因为 dfs.replication Amazon EMR 无法安全地完成调整大小。

  • 使用托管扩展或自动扩展时,请确保集群的最小容量不低于该dfs.replication系数。

  • 核心实例的数量应至少为dfs.replication正一。这可以确保,如果您启用了不健康的核心替换,Amazon EMR 可以成功替换运行状况不佳的核心节点。

重要

如果设置dfs.replication为 1,则单个核心节点的故障可能会导致 HDFS 数据丢失。如果您的集群具有 HDFS 存储,我们建议您为群集配置至少四个核心节点以用于生产工作负载,以避免数据丢失,并将dfs.replication系数设置为至少 2。