HDFS 配置
下表描述了默认 Hadoop Distributed File System(HDFS)参数及其设置。您可以使用 hdfs-site
配置分类更改这些值。有关更多信息,请参阅配置应用程序。
如果单个节点出现故障,则将 dfs.复制设置为 1 可能会导致 HDFS 数据丢失。
参数 | 定义 | 默认值 |
---|---|---|
dfs.block.size | HDFS 数据块的大小。当对 HDFS 中存储的数据进行操作时,拆分大小通常是 HDFS 数据块的大小。数字越大,提供的任务粒度越小,但集群 NameNode 受到的压力也越小。 |
134217728 (128 MB) |
dfs.replication | 要持久性存储的每个数据块的副本数量。对于小型集群,将它设置为 2,因为集群较小,在数据丢失后易于重启。您可以根据自己的需要,将此设置更改为 1、2 或 3。Amazon EMR 会根据集群大小自动计算重复因子。要覆盖默认值,请使用 hdfs-site 分类。 |
1 针对小于四个核心节点的集群 2 针对小于十个核心节点的集群 3 针对其它所有集群 |