本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
HDFS配置
下表描述了 Hadoop 分布式文件系统 (HDFS) 的默认参数及其设置。您可以使用 hdfs-site
配置分类更改这些值。有关更多信息,请参阅 配置应用程序。
警告
-
如果单个节点出现故障,在节点少于四个的群集上设置
dfs.replication
为 1 可能会导致HDFS数据丢失。如果您的集群有HDFS存储,我们建议您为集群配置至少四个核心节点,用于生产工作负载,以避免数据丢失。 -
Amazon EMR 不允许集群在下方扩展核心节点
dfs.replication
。例如,如果是dfs.replication = 2
,则最小核心节点数为 2。 -
当您使用托管式自动扩缩功能、自动扩缩功能或选择手动调整集群大小时,建议您将
dfs.replication
设置为2
或更高。
参数 | 定义 | 默认值 |
---|---|---|
dfs.block.size |
方HDFS块的大小。对存储在中的数据进行操作时HDFS,分割大小通常为HDFS块的大小。数字越大,提供的任务粒度越小,但集群 NameNode 受到的压力也越小。 |
134217728 (128 MB) |
dfs.replication |
要持久性存储的每个数据块的副本数量。Amazon EMR 根据为集群配置的核心节点数量来设置此值。调整该值以满足您的需求。要覆盖默认值,请使用 hdfs-site 分类。 |
|