本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
HDFS 复制因子错误
当您从核心实例组或实例队列中移除核心节点时,Amazon EMR 可能会遇到 HDFS 复制错误。当您移除核心节点并且核心节点数量低于为 Hadoop 分布式文件系统 (HDFS) 配置的 dfs.replication 因子时,就会发生此错误。因此,Amazon EMR 无法安全地执行该操作。要确定dfs.replication
配置的默认值,请使用 HDFS 配置。
可能的原因
有关 HDFS 重复因子错误的可能原因,请参阅以下内容:
-
如果您手动调整核心实例组或实例队列的大小低于配置
dfs.replication
系数。 -
如果 Amazon EMR 尝试替换运行状况不佳的核心节点,而集群的核心节点数量由定义,也会发生此错误。
dfs.replication
解决方案和最佳实践
有关解决方案和最佳实践,请参阅以下内容:
-
手动调整 Amazon EMR 集群的大小时,请不要向下缩小规模,因为
dfs.replication
Amazon EMR 无法安全地完成调整大小。 -
使用托管扩展或自动扩展时,请确保集群的最小容量不低于该
dfs.replication
系数。 -
核心实例的数量应至少为
dfs.replication
正一。这可以确保,如果您启用了不健康的核心替换,Amazon EMR 可以成功替换运行状况不佳的核心节点。
重要
如果设置dfs.replication
为 1,则单个核心节点的故障可能会导致 HDFS 数据丢失。如果您的集群具有 HDFS 存储,我们建议您为群集配置至少四个核心节点以用于生产工作负载,以避免数据丢失,并将dfs.replication
系数设置为至少 2。