Amazon EMR
Amazon EMR 版本指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

HDFS 配置

下表描述了默认 Hadoop 分布式文件系统 (HDFS) 参数及其设置。您可以使用 hdfs-site 配置分类更改这些值。有关更多信息,请参阅 配置应用程序

参数 定义 默认值
dfs.block.size HDFS 数据块的大小。当对 HDFS 中存储的数据进行操作时,拆分大小通常是 HDFS 数据块的大小。数字越大,提供的任务粒度越小,但集群 NameNode 受到的压力也越小。 134217728 (128 MB)
dfs.replication 要持久性存储的每个数据块的副本数量。对于小型集群,将它设置为 2,因为集群较小,在数据丢失后易于重启。您可以根据自己的需要,将此设置更改为 1、2 或 3。Amazon EMR 自动基于集群大小计算重复因子。要覆盖默认值,请使用 hdfs-site 分类。

对于小于四个节点的集群,值为 1 <

对于小于十个节点的集群,值为 2 <

3 针对其他所有集群