HDFS 配置 - Amazon EMR
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

HDFS 配置

下表描述了默认 Hadoop 分布式文件系统 (HDFS) 参数及其设置。您可以使用hdfs-site配置分类。有关更多信息,请参阅 配置应用程序

警告

如果单个节点出现故障,则将 dfs.复制设置为 1 可能会导致 HDFS 数据丢失。

参数 定义 默认值
dfs.block.size HDFS 数据块的大小。当对 HDFS 中存储的数据进行操作时,拆分大小通常是 HDFS 数据块的大小。数字越大,提供的任务粒度越小,但集群 NameNode 受到的压力也越小。 134217728 (128 MB)
dfs.replication 要持久性存储的每个数据块的副本数量。对于小型集群,将它设置为 2,因为集群较小,在数据丢失后易于重启。您可以根据自己的需要,将此设置更改为 1、2 或 3。Amazon EMR 会根据集群大小自动计算重复因子。要覆盖默认值,请使用 hdfs-site 分类。

1 个用于群集 < 四个核心节点

2 个用于群集 < 十个核心节点

3 针对其他所有集群