

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# HDFS 配置
<a name="emr-hdfs-config"></a>

下表描述了默认 Hadoop Distributed File System（HDFS）参数及其设置。您可以使用 `hdfs-site` 配置分类更改这些值。有关更多信息，请参阅 [配置应用程序](emr-configure-apps.md)。

**警告**  
如果单个节点出现故障，则在少于四个节点的集群上将 `dfs.replication` 设置为 1 可能会导致 HDFS 数据丢失。如果您的集群有 HDFS 存储，我们建议您将集群配置为至少四个用于生产工作负载的核心节点，以避免出现数据丢失情况。
Amazon EMR 不允许集群扩展 `dfs.replication` 下方的核心节点。例如，如果是 `dfs.replication = 2`，则最小核心节点数为 2。
当您使用托管式自动扩缩功能、自动扩缩功能或选择手动调整集群大小时，建议您将 `dfs.replication` 设置为 `2` 或更高。


| 参数 | 定义 | 默认 值 | 
| --- | --- | --- | 
| dfs.block.size | HDFS 数据块的大小。当对 HDFS 中存储的数据进行操作时，拆分大小通常是 HDFS 数据块的大小。数字越大，提供的任务粒度越小，但集群 NameNode 受到的压力也越小。 | 134217728 (128 MB) | 
| dfs.replication | 要持久性存储的每个数据块的副本数量。Amazon EMR 根据集群预置的核心节点数量设置该值。调整该值以满足您的需求。要覆盖默认值，请使用 hdfs-site 分类。 |  `1` 适用于预置少于四个核心节点的集群 `2` 适用于预置少于 10 个核心节点的集群 `3` 适用于所有其他集群  | 