HDFS 配置 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

HDFS 配置

下表描述了默认 Hadoop 分布式文件系统 (HDFS) 参数及其设置。您可以使用 hdfs-site 配置分类更改这些值。有关更多信息,请参阅配置应用程序

警告

如果单个节点出现故障,则将 dfs.复制设置为 1 可能会导致 HDFS 数据丢失。

参数 定义 默认值
dfs.block.size HDFS 数据块的大小。当对 HDFS 中存储的数据进行操作时,拆分大小通常是 HDFS 数据块的大小。数字越大,提供的任务粒度越小,但集群 NameNode 受到的压力也越小。 134217728 (128 MB)
dfs.replication 要持久性存储的每个数据块的副本数量。对于小型集群,将它设置为 2,因为集群较小,在数据丢失后易于重启。您可以根据自己的需要,将此设置更改为 1、2 或 3。Amazon EMR 会根据集群大小自动计算重复因子。要覆盖默认值,请使用 hdfs-site 分类。

1 针对小于四个核心节点的集群

2 针对小于十个核心节点的集群

3 针对其它所有集群